[算法理论] 颠覆传统：负步长使梯度下降-上升法收敛

在优化、学习、博弈和控制中，最小-最大问题的高效计算是一个核心问题。梯度下降-上升法（GDA）被认为是最自然的算法。然而，自1970年代以来，传统观点认为GDA在简单问题上无法收敛。这一失败促使了大量文献对GDA进行修改，加入了如额外梯度、乐观性、动量、锚定等额外构件。与此相反，我们展示了只需合理选择步长，GDA在其原始形式下也能收敛。关键创新在于提出了非常规的步长调度（称为弹弓步长调度），这些步长是时间变化的、不对称的，并且周期性为负。我们证明这三种特性对于收敛是必要的，并且这使得GDA能够在经典反例上收敛（例如，无约束的凸-凹问题）。

核心算法直觉是，尽管负步长会导致向后进展，但它们可以使最小值和最大值变量不同步（克服GDA的循环问题），并导致一种弹弓现象，使得其他迭代中的前进进展显著更大。这导致了整体快速收敛。从几何上看，弹弓动态利用了梯度流的不可逆性：正/负步长在一阶上相互抵消，产生一个新的方向的二阶净移动，导致收敛，而这是GDA无法实现的。我们将其解释为一种二阶有限差分算法，并且有趣的是，它大致实现了共识优化，这是一种在涉及深度神经网络的最小-最大问题（例如，训练GANs）中广受欢迎的算法。

博主点评： 本文提出的负步长策略为GDA的收敛性提供了新视角，打破了传统观点。通过引入时间变化的非对称步长，作者有效地解决了循环问题，为复杂的优化问题提供了新的解决方案，尤其是在深度学习领域的广泛应用前景值得关注。