在强化学习中,尤其是在大规模语言模型的后训练阶段,代理的信用分配仍然面临着挑战。代理通常在一个回合结束时才获得稀疏的轨迹级奖励,这使得很难判断哪些中间动作对成功或失败起到了作用。
为了在不依赖昂贵的辅助价值模型的情况下,将延迟结果传播回单个决策步骤,提出了通用优势分组策略优化(GAGPO)。
GAGPO 是一种无评论员的强化学习方法,用于精确的、步对齐的时间信用分配。它从采样的回放中构建了一个非参数的分组价值代理,并利用它来计算 TD/GAE 风格的时间优势,递归地将结果监督向后传播。
结合分组优势归一化和动作级重要性比率,GAGPO 从多回合轨迹中直接提取稳定的、局部的优化信号。
在 ALFWorld 和 WebShop 上的实验表明,GAGPO 的表现超越了强大的强化学习基线。此外,进一步分析显示了更快的早期学习、改进的交互效率和更平滑的优化动态,表明 GAGPO 提供了一种简单而有效的多回合代理强化学习框架。
博主点评: GAGPO 通过创新的时间信用分配方法,显著提升了多回合强化学习的效果,其无评论员的设计为实现高效的学习提供了新的思路,值得关注!