NeFut Logo NeFut
EN 管理员登录

[AI学术] STRIDE:通过判别估计实现可验证强化学习的战略轨迹推理

发布于:2026-06-17 22:00
#AI #Machine Learning #Reinforcement Learning

摘要

强化学习与可验证奖励(RLVR)已成为提升大型语言模型推理能力的有效后训练范式。然而,现有的 RLVR 方法通常依赖最终答案的正确性来分配轨迹级奖励,这种方法提供了稀疏的监督,并且对所有 token 采取相同的处理方式,而未考虑它们在推理中的实际贡献。尽管最近的研究引入了过程奖励、高熵 token 和语义不确定性等中间信号,但这些信号往往不具备内在的可验证性,可能无法区分有益的战略模式和有害的模式。

为了解决这一局限性,我们提出了 STRIDE(通过判别估计的战略轨迹推理),这是一个细粒度的 RLVR 框架,从可验证的结果中推导战略推理监督。STRIDE 在每个响应组内对比成功和失败的轨迹,以估计每个 $n$-gram 战略模式的结果判别偏好,并进一步结合推理显著性熵来识别与决策相关的战略模式。这些模式在 RL 优化过程中被分配不同的优势值,从而实现更精确的信用分配,同时保留 RLVR 的可验证性。大量实验表明,STRIDE 在各种模型、任务和扩展设置(包括 VLM 和基于代理的系统)中始终提升推理性能。

博主点评: STRIDE 通过对比成功与失败的轨迹,提供了一种创新的方式来优化强化学习的可验证性与推理能力。这种方法不仅提高了模型的推理准确性,还为未来的研究提供了新思路,值得关注和深入探讨。

原文链接: https://arxiv.org/abs/2606.15866

[h] 返回首页