[AI学术] 缩小反思差距：为自主强化学习带来免费校准奖励

摘要

近年来，大型语言模型（LLMs）被越来越多地部署为与外部环境互动的智能体，并观察诸如执行结果、错误消息和工具输出等反馈信息。一个功能良好的智能体应能够利用这些反馈准确评估自身表现。然而，我们发现存在一个持续的反思差距：LLM 智能体在观察具体环境反馈后，往往会错误评估其输出，即便是对于那些正确回答的问题。标准的强化学习（RL）并未能有效解决这一问题，主要是由于信用分配不匹配。

为了解决这一问题，我们提出了 RefGRPO，这是一种简单而有效的修正方法，增强了标准 RL 算法，包含两个关键成分：一个通过对比智能体自身反思与实际结果计算的免费校准奖励（无需额外的奖励模型、LLM 判断或外部注释），以及其系数的动态调度。与标准 RL 基线相比，我们的方法同时提高了反思校准（例如，减少了低自信率从 $44.4\%$ 降至 $7.7\%$）和任务准确率（例如，从 $75.1\%$ 提高至 $76.5\%$），在五个基准上的文本到 SQL 的测试中表现突出。最终得到的校准反思使得智能体成为其自身的验证者，基于环境反馈进一步实现了（i）更好的自我改进，利用反思作为伪奖励而无需结果监督，以及（ii）更有效的测试时选择性预测，仅对标记为正确的回归进行承诺。

博主点评： 本文提出的 RefGRPO 方法有效地缩小了 LLM 智能体的反思差距，显著提升了其自我评估能力和任务执行准确性。这一创新不仅为 RL 应用提供了新的思路，也为未来的自我改进过程奠定了基础，值得进一步探索与应用。