NeFut Logo NeFut
EN 管理员登录

[AI学术] GAGPO:多回合强化学习的新突破

发布于:2026-06-15 22:00 最后更新:2026-06-16 12:13
#AI #optimization #Reinforcement Learning

在强化学习中,尤其是在大规模语言模型的后训练阶段,代理的信用分配仍然面临着挑战。代理通常在一个回合结束时才获得稀疏的轨迹级奖励,这使得很难判断哪些中间动作对成功或失败起到了作用。

为了在不依赖昂贵的辅助价值模型的情况下,将延迟结果传播回单个决策步骤,提出了通用优势分组策略优化(GAGPO)。

GAGPO 是一种无评论员的强化学习方法,用于精确的、步对齐的时间信用分配。它从采样的回放中构建了一个非参数的分组价值代理,并利用它来计算 TD/GAE 风格的时间优势,递归地将结果监督向后传播。

结合分组优势归一化和动作级重要性比率,GAGPO 从多回合轨迹中直接提取稳定的、局部的优化信号。

在 ALFWorld 和 WebShop 上的实验表明,GAGPO 的表现超越了强大的强化学习基线。此外,进一步分析显示了更快的早期学习、改进的交互效率和更平滑的优化动态,表明 GAGPO 提供了一种简单而有效的多回合代理强化学习框架。

博主点评: GAGPO 通过创新的时间信用分配方法,显著提升了多回合强化学习的效果,其无评论员的设计为实现高效的学习提供了新的思路,值得关注!

原文链接: https://arxiv.org/abs/2605.13217

[h] 返回首页