[AI学术] 揭露代码强化学习训练环境中的奖励漏洞

在这项研究中，我们衡量了代码强化学习（RL）环境接受不正确解决方案的比率。对49个任务样本的SWE-bench Verified进行测试，发现28.5%的任务测试套件存在弱点，导致Docker验证的不正确补丁通过了测试。在20个R2E-Gym任务中，单次利用生成的结果显示出25.0%的漏洞。通过对134个前沿模型提交的随机效应元分析发现，在相同的人类评分难度层次中，标记为可攻击任务的模型Pass@1比稳健任务高出14.14个百分点（95%置信区间[+11.80, +16.48]；单边p值）。

博主点评： 这项研究揭示了代码强化学习环境中测试套件的脆弱性，显示了在面对不正确解决方案时的高误判率。这一发现对开发更加可靠的RL系统具有重要意义，同时也为未来的研究指明了方向，强调了代码验证的重要性。