NeFut Logo NeFut
EN 管理员登录

[AI学术] 颠覆认知的物体可操作性推理基准:Affordance20Q

发布于:2026-06-15 22:00 最后更新:2026-06-16 12:14
#AI #LLM #Open Source

摘要

可操作性推理是从物体的物理属性(如形状和材料)推断其动作可能性的重要过程,这对于人类的物理理解至关重要,并且对于大型语言模型(LLMs)越来越重要。然而,现有的可操作性基准在评估过程中往往暴露了物体的明确身份,使得模型依赖于记忆的物体-可操作性映射,而非真正基于物理属性进行推理。

为了解决这一问题,我们提出了 Affordance20Q,这是一个新颖的可操作性推理基准,设计成一个不暴露物体身份的20问游戏。在每场游戏中,模型通过对物体的物理属性提出是/否问题来识别隐藏物体的可操作性。Affordance20Q 包含 1,009 场游戏,涉及 454 个物体和 59 种可操作性,所有数据均经过手动筛选、精炼和注释。

我们对 15 个最先进的 LLM 进行了全面实验,发现其表现与人类相比存在显著差距(约 20 分)。基于 KL 的信息增益(IG)分析进一步表明,模型在游戏进行时未能提出具有区分性的提问。为缩小这一差距,我们开发了基于知识库(KB)的规则归纳(KARI)管道,该管道基于 LLM 生成基于证据的可操作性规则。KARI 使开源 LLM 的性能提升了最高 15.2 分,但由于 KB 覆盖范围有限,进一步提升受到限制。我们将所有代码和数据发布在 GitHub 上。

博主点评: Affordance20Q 的提出为物体可操作性推理提供了一个全新的视角,通过不暴露物体身份的方式,促使模型更深入地理解物理属性的本质。KARI 的方法论不仅提升了模型的性能,还为未来的研究提供了丰富的思路,期待更多的创新应用。

原文链接: https://arxiv.org/abs/2606.14240

[h] 返回首页