在这项研究中,我们衡量了代码强化学习(RL)环境接受不正确解决方案的比率。对49个任务样本的SWE-bench Verified进行测试,发现28.5%的任务测试套件存在弱点,导致Docker验证的不正确补丁通过了测试。在20个R2E-Gym任务中,单次利用生成的结果显示出25.0%的漏洞。通过对134个前沿模型提交的随机效应元分析发现,在相同的人类评分难度层次中,标记为可攻击任务的模型Pass@1比稳健任务高出14.14个百分点(95%置信区间[+11.80, +16.48];单边p值)。
博主点评: 这项研究揭示了代码强化学习环境中测试套件的脆弱性,显示了在面对不正确解决方案时的高误判率。这一发现对开发更加可靠的RL系统具有重要意义,同时也为未来的研究指明了方向,强调了代码验证的重要性。