NeFut Logo NeFut
EN 管理员登录

[AI学术] 双路径推理:空间视觉语言模型的突破性进展

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:49
#AI #Machine Learning #optimization

空间视觉语言模型(Spatial VLMs)在几何感知方面取得了显著进展,但涉及深度、距离和场景关系的复杂空间推理仍然具有挑战性。不同的空间查询需要根本不同的策略:有些最适合通过纯语言的逐步推理解决,而其他则需要在定量推理前进行明确的3D基础。我们提出了通过强化学习实现的双路径空间推理框架(SR-REAL),为空间VLM提供了两条互补的推理路径:语言仅推理(LOR),执行逐步语言推理,以及检测后推理(DTR),通过区域标记检测3D几何线索(例如中心或边界框),然后进行明确的几何推理。

SR-REAL首先经过冷启动的监督微调阶段,构建LOR和DTR的思维链监督,并暴露区域到3D接口,随后通过强化学习优化策略模型以获得准确性和格式奖励;对于DTR,基于离散中心的检测奖励进一步细化几何对齐。在多样的空间基准测试中,SR-REAL显著优于空间VLM基线:

  1. 单一的RL训练模型支持两条推理路径,DTR在区域感知任务中通过精确的3D定位表现出色,而LOR增强了一般的空间推理;
  2. 联合训练两条路径促进了相互强化;
  3. 高质量混合冷启动数据对稳定的RL优化至关重要;
  4. 模型在不同数据集和领域间具有良好的泛化能力,无需针对每个任务进行调优,展示了LOR与DTR之间的积极迁移。

博主点评: SR-REAL的提出为空间推理提供了创新的解决方案,双路径的设计有效地结合了语言推理与几何检测,展示了在复杂任务中提升性能的潜力。未来,如何进一步优化数据质量和模型泛化能力将是关键研究方向。

原文链接: https://arxiv.org/abs/2606.17539

[h] 返回首页