[AI学术] 警惕！优秀验证者可能导致自我改进VLM的任务回归

在视觉语言模型（VLM）中，验证者驱动的自我DPO（决策过程优化）是一种常见的自我改进方法。在这一过程中，冻结的验证者对候选生成结果进行评分，得分最高和最低的候选结果形成偏好示例，DPO则更新学习者。然而，部署时的假设是单调的：一个更强的验证者应该会产生一个更强的学生。我们展示了这一假设可能失效，因为验证者的质量高度依赖于特定任务。

在MathVista、MMMU和BLINK的四层开源验证者梯度中，同一验证者在MathVista上超出阈值且改善了Qwen-3-VL-2B学生的表现，但在MMMU上却低于阈值，其任务评分准确率降至8%到23%。在这种情况下，我们测试的每个验证者都悄然回归，导致学生的表现下降了3.4到10.9个百分点，尽管DPO训练损失仍在下降。这一回归在第二个学生Qwen-2.5-VL-3B上也得到了验证。

此外，在失败的情况下，损害是信心反转的：更准确但仍然错误的验证者会导致比接近随机的验证者更大的回归，表明进展门控重放放大了自信错误的偏好对。我们通过进展门控重放的方差定理及其方向不匹配的失败模式提供了紧凑的机械解释。部署信息是操作性的，而不仅仅是诊断性的：在运行任何验证者驱动的循环之前，团队应测量目标任务的评分准确性，根据目标任务评分质量而非参数数量对验证者进行排名，并将超阈值范围内的收益递减视为验证者计算预算上限。

博主点评： 本文揭示了验证者质量对自我改进模型的深远影响，强调了在特定任务上评估验证者的重要性。随着VLM的广泛应用，团队应更加关注模型的实际表现而非仅仅依赖参数规模。合理的验证者选择和评估策略将是确保模型有效性的关键。