[AI学术] 革命性基准测试：揭示LLM规划中的潜在失败

在家庭环境中，大型语言模型（LLMs）越来越多地被用作自主代理的规划工具。现有基准测试通常评估LLM生成的计划是否能够成功执行，但忽略了一种关键的失败类型：潜在失败。潜在失败不同于即时失败，后者在执行时会立即触发反馈并允许及时修正，而潜在失败则不会立即停止计划执行，但会悄然损害目标实现，严重时甚至可能造成不可逆转的伤害。

为了解决这一问题，我们引入了SIMMER，一个用于评估LLM规划中潜在失败的基准，基于厨房领域的人为策划符号世界模型。SIMMER定义了一个世界模型，包括77个动作、262个独特对象和大约46,800种可能的语义现实交互，这些交互源自真实的烹饪脚本。然后，它利用状态机执行器验证计划与世界模型的匹配，并检测即时前置条件违反、潜在危险和不可逆转的失败。

在对六个LLM的实验中，结果显示即便是最先进的模型也仅能实现最多17%的无错误计划。此外，最多有56%的计划包含潜在失败，其中大多数导致不可逆后果。我们进一步证明，通过反事实前瞻模拟进行明确的状态推理可以将潜在失败减少多达72%，并将不可逆案例减少多达75%，这为更强大的LLM规划器指明了有希望的方向。

博主点评： SIMMER基准测试的引入不仅填补了现有LLM规划中潜在失败的评估空白，同时也为未来的研究提供了重要的思路。通过结合反事实推理，LLM的规划能力有望实现质的飞跃，为自主代理提供更可靠的决策支持。