NeFut Logo NeFut
EN 管理员登录

[AI学术] PowerOPD:利用有界幂变换稳定在线策略蒸馏

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:47
#AI #Machine Learning #optimization

摘要

标准的在线策略蒸馏(OPD)对于大型语言模型通过学生采样的标记来估计反向KL目标,这种方法避免了词汇范围内的计算,使用无偏的单样本Monte Carlo估计器。然而,我们发现这种估计器在实践中存在严重的训练病态:样本效率低、生成动态不稳定,并且与精确的全词汇OPD相比,存在显著的性能差距。奖励级别的诊断将这些病态归因于对数比奖励,该奖励在构造上是无界的,产生了极高方差的梯度,集中在早期位置并在训练中持续存在;标准的事后缩放无法解决这个问题,因为它们仅在这种扭曲发生后才起作用。

为了解决这个问题,我们提出了PowerOPD:一种基于Box-Cox幂变换的本征有界、符号一致的奖励家族,参数化由alpha 0,其中对数比是退化的alpha - 0极限。在六个数学推理基准和四个Qwen3教师-学生对中,PowerOPD在基准平均Avg@8/Pass@8上分别获得了+6.37/+5.71的提升,相较于原始OPD,事后稳定性提升了+3.01/+3.54,相较于全词汇OPD提升了+2.59/+8.90,同时减少了59.2%的墙钟时间和23.1%的峰值GPU内存。较大的alpha通常提高准确性,持续缩短响应时间,并使梯度范数保持在原始OPD的3000倍以上。

博主点评: PowerOPD通过引入有界奖励机制,有效解决了传统在线策略蒸馏中的训练不稳定性和效率问题。这一创新方法不仅提升了模型性能,还显著降低了计算资源消耗,展现了对大规模语言模型训练的深远影响。该方法为未来的研究提供了新的视角,值得深入探索。

原文链接: https://arxiv.org/abs/2606.17199

[h] 返回首页