NeFut Logo NeFut
EN 管理员登录

[AI学术] RoboPIN:通过固定思维链实现扎根的具身推理

发布于:2026-06-17 22:00
#AI #Machine Learning #optimization

摘要

具身推理要求模型在物理环境中感知与任务相关的对象和空间,并在多步骤推理中保持一致的视觉基础。然而,目前的视觉语言模型依赖于仅文本或坐标增强的思维链,其中实体引用仍然隐含且模糊。这可能导致推理过程与视觉证据脱节,实体引用在步骤间漂移,以及推理轨迹与最终答案之间的因果失联。在多视图场景中,由于跨视图外观变化,这些问题会进一步加剧。为了应对这些问题,我们提出了固定思维链(Pinned Chain-of-Thought,简称 exttt{pincot}),一种将每个推理步骤固定在视觉证据上的结构化推理范式。

exttt{pincot} 引入了   exttt{reasoninganchor} 的概念,将每个与任务相关的实体绑定到一个结构化的视觉锚点,包含实体名称、唯一身份、视图索引和空间基础,使得在推理步骤和视图间能够一致地跟踪实体。

我们建立了一个完全自动化的数据生成管道,构建了一个高质量的 exttt{pincot} 格式推理数据集( exttt{dataset})。随后,我们通过三阶段后训练来训练 exttt{method},逐步注入具身知识、结构化推理能力和过程监督对齐,奖励直接约束推理过程中的锚点定位和身份一致性。

在涵盖具身空间推理、多视图推理和指向的 14 个基准测试中,具有仅 40 亿参数的 exttt{method} 一直优于 70 亿级的开源具身模型,平均提高了 12 ext{ extperthousand},超越了最强的 70 亿基线模型 Mimo-Embodied。进一步分析表明, exttt{pincot} 提高了基础准确性和跨步骤身份一致性,验证了过程监督的有效性。

博主点评: RoboPIN 提出的固定思维链为具身推理提供了新思路,通过将推理过程与视觉证据紧密结合,克服了传统模型的局限。这种创新在多视图场景中的表现尤为突出,值得关注其在更广泛应用中的潜力。

原文链接: https://arxiv.org/abs/2606.15753

[h] 返回首页