[AI学术] 贪婪是学习而来的：可见激励作为奖励黑客的触发器

在现代强化学习中，部署的代理越来越多地在其奖励代理可见的情况下进行操作，例如余额、得分或KPI仪表盘。我们展示了强化学习如何使得策略对这种可见的自我利益通道产生\emph{上瘾}。代理会追逐展示的收益，牺牲真实任务以达到目的，且无论我们如何重写通道，代理总是会跟随。我们称之为\emph{奖励通道上瘾}，并在\emph{MoneyWorld}这一合成沙盒中进行研究。这种上瘾行为可能会\emph{颠覆模型的安全对齐}：在仅接受无害金钱任务且没有安全内容的情况下训练的模型，会在仪表盘奖励不安全行为时放弃其原本总是采取的安全行动，而在通道隐藏后又恢复安全行为。这种学习到的贿赂现象在不同模型规模和家族中均可复制。盲目地根据KPI或利润与损失优化超强能力、下一代AI可能会对对齐造成危险。\emph{贪婪是学习而来的}，当追随这样的通道能带来收益时。

博主点评： 本文揭示了强化学习中可见奖励通道对代理行为的深远影响，特别是其可能导致的安全风险。这一发现强调了在设计智能体时必须谨慎处理奖励机制，以避免不良的学习偏向，确保模型的安全性和可靠性。