在家庭环境中,大型语言模型(LLMs)越来越多地被用作自主代理的规划工具。现有基准测试通常评估LLM生成的计划是否能够成功执行,但忽略了一种关键的失败类型:潜在失败。潜在失败不同于即时失败,后者在执行时会立即触发反馈并允许及时修正,而潜在失败则不会立即停止计划执行,但会悄然损害目标实现,严重时甚至可能造成不可逆转的伤害。
为了解决这一问题,我们引入了SIMMER,一个用于评估LLM规划中潜在失败的基准,基于厨房领域的人为策划符号世界模型。SIMMER定义了一个世界模型,包括77个动作、262个独特对象和大约46,800种可能的语义现实交互,这些交互源自真实的烹饪脚本。然后,它利用状态机执行器验证计划与世界模型的匹配,并检测即时前置条件违反、潜在危险和不可逆转的失败。
在对六个LLM的实验中,结果显示即便是最先进的模型也仅能实现最多17%的无错误计划。此外,最多有56%的计划包含潜在失败,其中大多数导致不可逆后果。我们进一步证明,通过反事实前瞻模拟进行明确的状态推理可以将潜在失败减少多达72%,并将不可逆案例减少多达75%,这为更强大的LLM规划器指明了有希望的方向。
博主点评: SIMMER基准测试的引入不仅填补了现有LLM规划中潜在失败的评估空白,同时也为未来的研究提供了重要的思路。通过结合反事实推理,LLM的规划能力有望实现质的飞跃,为自主代理提供更可靠的决策支持。