[AI学术] GAGPO：多回合强化学习的新突破

在强化学习中，尤其是在大规模语言模型的后训练阶段，代理的信用分配仍然面临着挑战。代理通常在一个回合结束时才获得稀疏的轨迹级奖励，这使得很难判断哪些中间动作对成功或失败起到了作用。

为了在不依赖昂贵的辅助价值模型的情况下，将延迟结果传播回单个决策步骤，提出了通用优势分组策略优化（GAGPO）。

GAGPO 是一种无评论员的强化学习方法，用于精确的、步对齐的时间信用分配。它从采样的回放中构建了一个非参数的分组价值代理，并利用它来计算 TD/GAE 风格的时间优势，递归地将结果监督向后传播。

结合分组优势归一化和动作级重要性比率，GAGPO 从多回合轨迹中直接提取稳定的、局部的优化信号。

在 ALFWorld 和 WebShop 上的实验表明，GAGPO 的表现超越了强大的强化学习基线。此外，进一步分析显示了更快的早期学习、改进的交互效率和更平滑的优化动态，表明 GAGPO 提供了一种简单而有效的多回合代理强化学习框架。

博主点评： GAGPO 通过创新的时间信用分配方法，显著提升了多回合强化学习的效果，其无评论员的设计为实现高效的学习提供了新的思路，值得关注！