[AI学术] 从第一性原理出发的LLM策略优化：从期望奖励到GRPO及其结构扩展

摘要

语言模型的策略梯度算法优化相同的目标函数 $J(\theta) = \mathbb{E}_{\tau \sim p_\theta(\tau)}[R(\tau)]$，其中包含两个要素：轨迹概率 $p_\theta(\tau)$ 和奖励 $R(\tau)$。从 REINFORCE 到 PPO，再到 GRPO 及其后续方法，每种方法都对这两个要素之一或两者进行了修改，以解决前一个公式中的特定缺陷。现有的综述文章通常按领域或时间顺序组织这些方法，这使得每个设计选择背后的理由和其在梯度估计中的确切干预位置变得模糊。

本综述从第一性原理重新审视 LLM 策略优化的全貌，以 $J(\theta)$ 为基础，使用由 $p_\theta(\tau)$ 引发的轨迹侧和由 $R(\tau)$ 引发的奖励侧作为定位方法的两个轴心。讨论了从 REINFORCE 和 PPO 到 GRPO 以及 GRPO 后的变体、Agentic RL 和 GRPO-OPD 的演变。所提出的框架是统一的、诊断性的和可扩展的：它从共享目标分析方法，识别每种方法修改的侧面及其原因，并在这些设置中应用相同的轨迹和奖励轴。

在这些设置中，框架还揭示了单侧修复无法解决的复合故障，因此需要对轨迹侧和奖励侧进行联合设计。通过这个映射识别的边界情况和耦合故障标志着现有解决方案的局限性，并为设计下一代 LLM 策略优化算法提供了原则性的起点。

博主点评： 本文从第一性原理出发，深入探讨了 LLM 策略优化的复杂性，明确了轨迹和奖励两个维度的相互作用。这一框架不仅有助于理解现有方法的局限性，还为未来的算法设计提供了宝贵的指导。