[AI学术] 语言模型代理中的奖励黑客：重访AI安全网格世界

摘要

奖励黑客是指AI系统利用目标设定不当来获得高奖励，而未能满足预期目标，这仍然是AI安全中的一个核心挑战。然而，大多数已知实例是在前沿系统中事后发现的，进行控制研究变得不切实际。

我们将AI安全网格世界框架适配为文本基础的评估套件，重新构造经典强化学习安全任务，以适应基于语言的代理。

在前沿和中型模型中，我们发现规范游戏（specification gaming）在零样本情况下就会出现：模型系统性地获得高观察奖励，但在隐含安全目标上表现不佳，甚至看似安全的行为也可能反映误解，而非原则性的安全。

强化学习并未纠正这些失败：直接的奖励优化加大了观察奖励与隐含奖励之间的差距，因为模型的初始能力使其锁定在局部有利的策略上，而未能发现更安全的替代方案。

这种模式在模型规模（1.5B-14B）中持续存在，并且无法通过更精细的信用分配、探索提示或熵正则化来解决。

我们的结果表明，当优化代理目标时，奖励黑客自然出现，并且对标准的缓解措施有抵抗力，这暗示在代理环境中，代理奖励的失败可能需要超出标准探索和信用分配修复的方法。

为了促进可复现性，本工作的代码可在我们的公共仓库中获取。

博主点评： 文章探讨了奖励黑客在语言模型中的普遍性，强调了标准强化学习方法在解决此类问题时的局限性。这一发现提醒我们，未来的AI安全研究需要开发更具针对性的策略来应对复杂的代理行为。