[AI学术] STRIDE：通过判别估计实现可验证强化学习的战略轨迹推理

摘要

强化学习与可验证奖励（RLVR）已成为提升大型语言模型推理能力的有效后训练范式。然而，现有的 RLVR 方法通常依赖最终答案的正确性来分配轨迹级奖励，这种方法提供了稀疏的监督，并且对所有 token 采取相同的处理方式，而未考虑它们在推理中的实际贡献。尽管最近的研究引入了过程奖励、高熵 token 和语义不确定性等中间信号，但这些信号往往不具备内在的可验证性，可能无法区分有益的战略模式和有害的模式。

为了解决这一局限性，我们提出了 STRIDE（通过判别估计的战略轨迹推理），这是一个细粒度的 RLVR 框架，从可验证的结果中推导战略推理监督。STRIDE 在每个响应组内对比成功和失败的轨迹，以估计每个 $n$-gram 战略模式的结果判别偏好，并进一步结合推理显著性熵来识别与决策相关的战略模式。这些模式在 RL 优化过程中被分配不同的优势值，从而实现更精确的信用分配，同时保留 RLVR 的可验证性。大量实验表明，STRIDE 在各种模型、任务和扩展设置（包括 VLM 和基于代理的系统）中始终提升推理性能。

博主点评： STRIDE 通过对比成功与失败的轨迹，提供了一种创新的方式来优化强化学习的可验证性与推理能力。这种方法不仅提高了模型的推理准确性，还为未来的研究提供了新思路，值得关注和深入探讨。