[AI学术] 高奖励数据为何削弱小型模型的数学推理能力？

在数学推理领域，知识蒸馏被广泛用于提升小型语言模型（SLMs）的性能，通常假设高奖励模型得分的轨迹提供了更有用的监督。然而，我们在数学推理蒸馏中发现了一个反直觉的 质量-效用悖论。经过强大 Oracle 精炼或合成的数据，在奖励模型中获得更高的感知质量，但在 Qwen2.5、LLaMA-3 和 DeepSeek 系列中，始终表现不如通过拒绝采样选择的 SLM 自己生成的轨迹。我们的分析表明，Oracle 精炼将逻辑修复与 SLM 原生推理分布的分布漂移结合在一起。这种漂移增加了学习者的适应成本，并可能超过改进推理逻辑的好处。为了验证这一机制，我们引入了 风格对齐精炼，该方法在保留 SLM 原生轨迹的同时，保留来自 Oracle 的逻辑修复。这一干预降低了适应成本并恢复了下游效用。这些发现表明，有效的数学推理蒸馏应共同优化感知解的质量和学习者与数据的兼容性，而不是单纯依赖奖励模型得分。数据集和代码可在 GitHub 获取。

博主点评： 该研究揭示了在数学推理模型中，依赖高奖励数据进行知识蒸馏可能导致性能下降的悖论，强调了模型与数据兼容性的重要性。这为未来的研究提供了新的视角，值得进一步探索和验证。