NeFut Logo NeFut
EN 管理员登录

[AI学术] 缩小反思差距:为自主强化学习带来免费校准奖励

发布于:2026-06-15 22:00 最后更新:2026-06-16 12:14
#AI #Machine Learning #Reinforcement Learning

摘要

近年来,大型语言模型(LLMs)被越来越多地部署为与外部环境互动的智能体,并观察诸如执行结果、错误消息和工具输出等反馈信息。一个功能良好的智能体应能够利用这些反馈准确评估自身表现。然而,我们发现存在一个持续的反思差距:LLM 智能体在观察具体环境反馈后,往往会错误评估其输出,即便是对于那些正确回答的问题。标准的强化学习(RL)并未能有效解决这一问题,主要是由于信用分配不匹配。

为了解决这一问题,我们提出了 RefGRPO,这是一种简单而有效的修正方法,增强了标准 RL 算法,包含两个关键成分:一个通过对比智能体自身反思与实际结果计算的免费校准奖励(无需额外的奖励模型、LLM 判断或外部注释),以及其系数的动态调度。与标准 RL 基线相比,我们的方法同时提高了反思校准(例如,减少了低自信率从 $44.4\%$ 降至 $7.7\%$)和任务准确率(例如,从 $75.1\%$ 提高至 $76.5\%$),在五个基准上的文本到 SQL 的测试中表现突出。最终得到的校准反思使得智能体成为其自身的验证者,基于环境反馈进一步实现了(i)更好的自我改进,利用反思作为伪奖励而无需结果监督,以及(ii)更有效的测试时选择性预测,仅对标记为正确的回归进行承诺。

博主点评: 本文提出的 RefGRPO 方法有效地缩小了 LLM 智能体的反思差距,显著提升了其自我评估能力和任务执行准确性。这一创新不仅为 RL 应用提供了新的思路,也为未来的自我改进过程奠定了基础,值得进一步探索与应用。

原文链接: https://arxiv.org/abs/2606.14211

[h] 返回首页