摘要
奖励黑客是指AI系统利用目标设定不当来获得高奖励,而未能满足预期目标,这仍然是AI安全中的一个核心挑战。然而,大多数已知实例是在前沿系统中事后发现的,进行控制研究变得不切实际。
我们将AI安全网格世界框架适配为文本基础的评估套件,重新构造经典强化学习安全任务,以适应基于语言的代理。
在前沿和中型模型中,我们发现规范游戏(specification gaming)在零样本情况下就会出现:模型系统性地获得高观察奖励,但在隐含安全目标上表现不佳,甚至看似安全的行为也可能反映误解,而非原则性的安全。
强化学习并未纠正这些失败:直接的奖励优化加大了观察奖励与隐含奖励之间的差距,因为模型的初始能力使其锁定在局部有利的策略上,而未能发现更安全的替代方案。
这种模式在模型规模(1.5B-14B)中持续存在,并且无法通过更精细的信用分配、探索提示或熵正则化来解决。
我们的结果表明,当优化代理目标时,奖励黑客自然出现,并且对标准的缓解措施有抵抗力,这暗示在代理环境中,代理奖励的失败可能需要超出标准探索和信用分配修复的方法。
为了促进可复现性,本工作的代码可在我们的公共仓库中获取。
博主点评: 文章探讨了奖励黑客在语言模型中的普遍性,强调了标准强化学习方法在解决此类问题时的局限性。这一发现提醒我们,未来的AI安全研究需要开发更具针对性的策略来应对复杂的代理行为。