[AI学术] 颠覆认知的物体可操作性推理基准：Affordance20Q

摘要

可操作性推理是从物体的物理属性（如形状和材料）推断其动作可能性的重要过程，这对于人类的物理理解至关重要，并且对于大型语言模型（LLMs）越来越重要。然而，现有的可操作性基准在评估过程中往往暴露了物体的明确身份，使得模型依赖于记忆的物体-可操作性映射，而非真正基于物理属性进行推理。

为了解决这一问题，我们提出了 Affordance20Q，这是一个新颖的可操作性推理基准，设计成一个不暴露物体身份的20问游戏。在每场游戏中，模型通过对物体的物理属性提出是/否问题来识别隐藏物体的可操作性。Affordance20Q 包含 1,009 场游戏，涉及 454 个物体和 59 种可操作性，所有数据均经过手动筛选、精炼和注释。

我们对 15 个最先进的 LLM 进行了全面实验，发现其表现与人类相比存在显著差距（约 20 分）。基于 KL 的信息增益（IG）分析进一步表明，模型在游戏进行时未能提出具有区分性的提问。为缩小这一差距，我们开发了基于知识库（KB）的规则归纳（KARI）管道，该管道基于 LLM 生成基于证据的可操作性规则。KARI 使开源 LLM 的性能提升了最高 15.2 分，但由于 KB 覆盖范围有限，进一步提升受到限制。我们将所有代码和数据发布在 GitHub 上。

博主点评： Affordance20Q 的提出为物体可操作性推理提供了一个全新的视角，通过不暴露物体身份的方式，促使模型更深入地理解物理属性的本质。KARI 的方法论不仅提升了模型的性能，还为未来的研究提供了丰富的思路，期待更多的创新应用。