NeFut Logo NeFut
EN 管理员登录

[算法理论] 颠覆传统:负步长使梯度下降-上升法收敛

发布于:2026-06-30 22:00 最后更新:2026-07-01 09:22
#algorithm #optimization #Neural

在优化、学习、博弈和控制中,最小-最大问题的高效计算是一个核心问题。梯度下降-上升法(GDA)被认为是最自然的算法。然而,自1970年代以来,传统观点认为GDA在简单问题上无法收敛。这一失败促使了大量文献对GDA进行修改,加入了如额外梯度、乐观性、动量、锚定等额外构件。与此相反,我们展示了只需合理选择步长,GDA在其原始形式下也能收敛。关键创新在于提出了非常规的步长调度(称为弹弓步长调度),这些步长是时间变化的、不对称的,并且周期性为负。我们证明这三种特性对于收敛是必要的,并且这使得GDA能够在经典反例上收敛(例如,无约束的凸-凹问题)。

核心算法直觉是,尽管负步长会导致向后进展,但它们可以使最小值和最大值变量不同步(克服GDA的循环问题),并导致一种弹弓现象,使得其他迭代中的前进进展显著更大。这导致了整体快速收敛。从几何上看,弹弓动态利用了梯度流的不可逆性:正/负步长在一阶上相互抵消,产生一个新的方向的二阶净移动,导致收敛,而这是GDA无法实现的。我们将其解释为一种二阶有限差分算法,并且有趣的是,它大致实现了共识优化,这是一种在涉及深度神经网络的最小-最大问题(例如,训练GANs)中广受欢迎的算法。

博主点评: 本文提出的负步长策略为GDA的收敛性提供了新视角,打破了传统观点。通过引入时间变化的非对称步长,作者有效地解决了循环问题,为复杂的优化问题提供了新的解决方案,尤其是在深度学习领域的广泛应用前景值得关注。

原文链接: https://arxiv.org/abs/2505.01423

[h] 返回首页