摘要
视觉思考不仅要听起来正确,还应展示其证据。尽管近期的视觉-语言模型(VLMs)能够生成自然语言推理痕迹,但这些痕迹往往隐含了支持的图像区域,使得验证变得困难,监督也难以执行。我们引入了视觉基础思考,这是一种推理过程,其中模型将自然语言思路与每一步所使用的视觉证据的显式点或框相结合。这使得模型能够在语言中表达中间推理,同时将关键对象与其所指的图像区域相结合。
为了训练这种行为,我们构建了一个可扩展的合成管道,提炼正确的视觉推理痕迹,提取所需的视觉对象,利用基于SAM3的代理进行基础化,并从生成的掩模中推导出对齐的点和框监督。此外,我们进一步提出了注重基础的强化学习,它结合了答案正确性的奖励与密集基础奖励,后者评分生成的对象引用是否与正确的图像证据匹配。在两个计数基准和四个空间推理基准中,将视觉基础思考加入Gemma3-4B-IT模型的一致性提高了性能,超越了原始模型及非基础思考基线。在空间推理上,视觉基础思考的4B模型与同一模型系列的Gemma3-27B-IT相匹配,甚至在某些情况下超越它。我们的分析显示,点基础非常适合计数,而框基础在空间任务上从显式基础奖励中获益最多。总体而言,我们的结果表明,VLMs在其间接思考与使其成立的图像区域相结合时,思考效果更佳。
博主点评: 视觉基础思考的引入为推理过程增添了新的维度,通过将视觉证据与语言思维结合,显著提升了模型的解释性和准确性。这一方法有效地解决了传统视觉-语言模型中对图像区域隐含性的不足,展示了未来研究在可解释性和监督学习方面的广阔前景。