[AI学术] RoboPIN：通过固定思维链实现扎根的具身推理

摘要

具身推理要求模型在物理环境中感知与任务相关的对象和空间，并在多步骤推理中保持一致的视觉基础。然而，目前的视觉语言模型依赖于仅文本或坐标增强的思维链，其中实体引用仍然隐含且模糊。这可能导致推理过程与视觉证据脱节，实体引用在步骤间漂移，以及推理轨迹与最终答案之间的因果失联。在多视图场景中，由于跨视图外观变化，这些问题会进一步加剧。为了应对这些问题，我们提出了固定思维链（Pinned Chain-of-Thought，简称 exttt{pincot}），一种将每个推理步骤固定在视觉证据上的结构化推理范式。

exttt{pincot} 引入了   exttt{reasoninganchor} 的概念，将每个与任务相关的实体绑定到一个结构化的视觉锚点，包含实体名称、唯一身份、视图索引和空间基础，使得在推理步骤和视图间能够一致地跟踪实体。

我们建立了一个完全自动化的数据生成管道，构建了一个高质量的 exttt{pincot} 格式推理数据集（ exttt{dataset}）。随后，我们通过三阶段后训练来训练 exttt{method}，逐步注入具身知识、结构化推理能力和过程监督对齐，奖励直接约束推理过程中的锚点定位和身份一致性。

在涵盖具身空间推理、多视图推理和指向的 14 个基准测试中，具有仅 40 亿参数的 exttt{method} 一直优于 70 亿级的开源具身模型，平均提高了 12 ext{ extperthousand}，超越了最强的 70 亿基线模型 Mimo-Embodied。进一步分析表明， exttt{pincot} 提高了基础准确性和跨步骤身份一致性，验证了过程监督的有效性。

博主点评： RoboPIN 提出的固定思维链为具身推理提供了新思路，通过将推理过程与视觉证据紧密结合，克服了传统模型的局限。这种创新在多视图场景中的表现尤为突出，值得关注其在更广泛应用中的潜力。