[AI学术] PowerOPD：利用有界幂变换稳定在线策略蒸馏

摘要

标准的在线策略蒸馏（OPD）对于大型语言模型通过学生采样的标记来估计反向KL目标，这种方法避免了词汇范围内的计算，使用无偏的单样本Monte Carlo估计器。然而，我们发现这种估计器在实践中存在严重的训练病态：样本效率低、生成动态不稳定，并且与精确的全词汇OPD相比，存在显著的性能差距。奖励级别的诊断将这些病态归因于对数比奖励，该奖励在构造上是无界的，产生了极高方差的梯度，集中在早期位置并在训练中持续存在；标准的事后缩放无法解决这个问题，因为它们仅在这种扭曲发生后才起作用。

为了解决这个问题，我们提出了PowerOPD：一种基于Box-Cox幂变换的本征有界、符号一致的奖励家族，参数化由alpha 0，其中对数比是退化的alpha - 0极限。在六个数学推理基准和四个Qwen3教师-学生对中，PowerOPD在基准平均Avg@8/Pass@8上分别获得了+6.37/+5.71的提升，相较于原始OPD，事后稳定性提升了+3.01/+3.54，相较于全词汇OPD提升了+2.59/+8.90，同时减少了59.2%的墙钟时间和23.1%的峰值GPU内存。较大的alpha通常提高准确性，持续缩短响应时间，并使梯度范数保持在原始OPD的3000倍以上。

博主点评： PowerOPD通过引入有界奖励机制，有效解决了传统在线策略蒸馏中的训练不稳定性和效率问题。这一创新方法不仅提升了模型性能，还显著降低了计算资源消耗，展现了对大规模语言模型训练的深远影响。该方法为未来的研究提供了新的视角，值得深入探索。