摘要
强化学习与可验证奖励(RLVR)已成为提升大型语言模型推理能力的有效后训练范式。然而,现有的 RLVR 方法通常依赖最终答案的正确性来分配轨迹级奖励,这种方法提供了稀疏的监督,并且对所有 token 采取相同的处理方式,而未考虑它们在推理中的实际贡献。尽管最近的研究引入了过程奖励、高熵 token 和语义不确定性等中间信号,但这些信号往往不具备内在的可验证性,可能无法区分有益的战略模式和有害的模式。
为了解决这一局限性,我们提出了 STRIDE(通过判别估计的战略轨迹推理),这是一个细粒度的 RLVR 框架,从可验证的结果中推导战略推理监督。STRIDE 在每个响应组内对比成功和失败的轨迹,以估计每个 $n$-gram 战略模式的结果判别偏好,并进一步结合推理显著性熵来识别与决策相关的战略模式。这些模式在 RL 优化过程中被分配不同的优势值,从而实现更精确的信用分配,同时保留 RLVR 的可验证性。大量实验表明,STRIDE 在各种模型、任务和扩展设置(包括 VLM 和基于代理的系统)中始终提升推理性能。
博主点评: STRIDE 通过对比成功与失败的轨迹,提供了一种创新的方式来优化强化学习的可验证性与推理能力。这种方法不仅提高了模型的推理准确性,还为未来的研究提供了新思路,值得关注和深入探讨。