NeFut Logo NeFut
EN 管理员登录

[AI学术] 权重范数揭示Grokking延迟法则:因果延迟的探索

发布于:2026-06-16 22:00 最后更新:2026-06-17 01:38
#algorithm #optimization #Neural

在神经网络中,Grokking是指在拟合训练数据后,普遍化的延迟发生。关于权重范数是否导致这一延迟存在争议:一些研究报告了在转折点的关键范数,而另一些则观察到无固定范数的Grokking现象。我们通过在训练过程中干预范数来解决这个问题,而不仅仅是观察它。

在自由训练与权重衰减下,当权重范数达到一个值 $W_c$ 时,网络开始Grokking,该值在不同种子和学习率下变化不大(变异系数1%至2%),并随着模数的增加呈幂律增长。当我们将范数限制在 $W_c$ 的固定倍数 $\rho$ 并保持不变时,网络仍然可以Grok,但延迟 $T_{grok}$ 与 $\exp(\beta \rho)$ 成正比。一个接近7.5的指数 $\beta$ 能很好地拟合这四个模数下的延迟($R^2 = 0.996$)。在所扫范围内,固定范数使延迟大约改变19倍,而学习率仅改变约2倍,并且将范数保持在 $W_c$ 以上会减慢Grokking的速度,而不是阻止它。最后,一层LayerNorm通过将权重规模与网络功能解耦,消除了这种依赖;没有它,指数法则将再次出现。这种固定范数延迟是自由收缩范数预测的对数延迟的指数对应。

博主点评: 本文通过实验性方法深入探讨了权重范数对Grokking现象的影响,揭示了其在神经网络训练中的关键作用。这一研究不仅为理解网络的学习过程提供了新的视角,也为优化训练策略提供了理论基础。

原文链接: https://arxiv.org/abs/2606.13753

[h] 返回首页