在数学问题解决中,链式思维(CoT)推理已从纯语言领域扩展至多模态场景。然而,现有方法往往将视觉输入视为同质或辅助信号,未能捕捉文本与图像之间复杂且样本特定的依赖关系。这引发了两个核心问题:第一,针对视觉内容的监督信号过于泛化且粗糙,缺乏对每个样本中视觉信息实际需求的适应性;第二,当视觉奖励在输入之间均匀应用时,训练反馈变得不准确,因为未能区分输入间的互补关系。这些限制阻碍了模型实现精准的多模态推理。
为此,我们提出了一种框架,以建模数学推理中的细粒度视觉依赖关系。我们首先构建了MathVis-Fine数据集,增强了细粒度视觉注释并附加了视觉依赖评分。在此数据集基础上,我们引入了两阶段渐进式视觉增强训练范式,根据每个样本的内在视觉依赖水平平衡答案正确性奖励与视觉基础奖励,从而减轻奖励偏差,提高监督准确性。广泛的实验表明,MathVis-Fine框架有效地基于视觉依赖逐步增强视觉感知,为多模态数学推理提供了更精确的训练框架。我们将在论文接受后发布该数据集。
博主点评: MathVis-Fine的提出解决了视觉输入在多模态推理中未被充分利用的问题,通过细粒度的视觉依赖建模,显著提升了模型的推理能力。该方法的两阶段训练策略值得关注,能够有效减轻训练中的偏差,为未来的研究提供了新的思路。