[AI学术] 权重范数揭示Grokking延迟法则：因果延迟的探索

在神经网络中，Grokking是指在拟合训练数据后，普遍化的延迟发生。关于权重范数是否导致这一延迟存在争议：一些研究报告了在转折点的关键范数，而另一些则观察到无固定范数的Grokking现象。我们通过在训练过程中干预范数来解决这个问题，而不仅仅是观察它。

在自由训练与权重衰减下，当权重范数达到一个值 $W_c$ 时，网络开始Grokking，该值在不同种子和学习率下变化不大（变异系数1%至2%），并随着模数的增加呈幂律增长。当我们将范数限制在 $W_c$ 的固定倍数 $\rho$ 并保持不变时，网络仍然可以Grok，但延迟 $T_{grok}$ 与 $\exp(\beta \rho)$ 成正比。一个接近7.5的指数 $\beta$ 能很好地拟合这四个模数下的延迟（$R^2 = 0.996$）。在所扫范围内，固定范数使延迟大约改变19倍，而学习率仅改变约2倍，并且将范数保持在 $W_c$ 以上会减慢Grokking的速度，而不是阻止它。最后，一层LayerNorm通过将权重规模与网络功能解耦，消除了这种依赖；没有它，指数法则将再次出现。这种固定范数延迟是自由收缩范数预测的对数延迟的指数对应。

博主点评： 本文通过实验性方法深入探讨了权重范数对Grokking现象的影响，揭示了其在神经网络训练中的关键作用。这一研究不仅为理解网络的学习过程提供了新的视角，也为优化训练策略提供了理论基础。