在优化、学习、博弈和控制中,最小-最大问题的高效计算是一个核心问题。梯度下降-上升法(GDA)被认为是最自然的算法。然而,自1970年代以来,传统观点认为GDA在简单问题上无法收敛。这一失败促使了大量文献对GDA进行修改,加入了如额外梯度、乐观性、动量、锚定等额外构件。与此相反,我们展示了只需合理选择步长,GDA在其原始形式下也能收敛。关键创新在于提出了非常规的步长调度(称为弹弓步长调度),这些步长是时间变化的、不对称的,并且周期性为负。我们证明这三种特性对于收敛是必要的,并且这使得GDA能够在经典反例上收敛(例如,无约束的凸-凹问题)。
核心算法直觉是,尽管负步长会导致向后进展,但它们可以使最小值和最大值变量不同步(克服GDA的循环问题),并导致一种弹弓现象,使得其他迭代中的前进进展显著更大。这导致了整体快速收敛。从几何上看,弹弓动态利用了梯度流的不可逆性:正/负步长在一阶上相互抵消,产生一个新的方向的二阶净移动,导致收敛,而这是GDA无法实现的。我们将其解释为一种二阶有限差分算法,并且有趣的是,它大致实现了共识优化,这是一种在涉及深度神经网络的最小-最大问题(例如,训练GANs)中广受欢迎的算法。
博主点评: 本文提出的负步长策略为GDA的收敛性提供了新视角,打破了传统观点。通过引入时间变化的非对称步长,作者有效地解决了循环问题,为复杂的优化问题提供了新的解决方案,尤其是在深度学习领域的广泛应用前景值得关注。