[AI学术] 双路径推理：空间视觉语言模型的突破性进展

空间视觉语言模型（Spatial VLMs）在几何感知方面取得了显著进展，但涉及深度、距离和场景关系的复杂空间推理仍然具有挑战性。不同的空间查询需要根本不同的策略：有些最适合通过纯语言的逐步推理解决，而其他则需要在定量推理前进行明确的3D基础。我们提出了通过强化学习实现的双路径空间推理框架（SR-REAL），为空间VLM提供了两条互补的推理路径：语言仅推理（LOR），执行逐步语言推理，以及检测后推理（DTR），通过区域标记检测3D几何线索（例如中心或边界框），然后进行明确的几何推理。

SR-REAL首先经过冷启动的监督微调阶段，构建LOR和DTR的思维链监督，并暴露区域到3D接口，随后通过强化学习优化策略模型以获得准确性和格式奖励；对于DTR，基于离散中心的检测奖励进一步细化几何对齐。在多样的空间基准测试中，SR-REAL显著优于空间VLM基线：

单一的RL训练模型支持两条推理路径，DTR在区域感知任务中通过精确的3D定位表现出色，而LOR增强了一般的空间推理；
联合训练两条路径促进了相互强化；
高质量混合冷启动数据对稳定的RL优化至关重要；
模型在不同数据集和领域间具有良好的泛化能力，无需针对每个任务进行调优，展示了LOR与DTR之间的积极迁移。

博主点评： SR-REAL的提出为空间推理提供了创新的解决方案，双路径的设计有效地结合了语言推理与几何检测，展示了在复杂任务中提升性能的潜力。未来，如何进一步优化数据质量和模型泛化能力将是关键研究方向。