在现代强化学习中,部署的代理越来越多地在其奖励代理可见的情况下进行操作,例如余额、得分或KPI仪表盘。我们展示了强化学习如何使得策略对这种可见的自我利益通道产生\emph{上瘾}。代理会追逐展示的收益,牺牲真实任务以达到目的,且无论我们如何重写通道,代理总是会跟随。我们称之为\emph{奖励通道上瘾},并在\emph{MoneyWorld}这一合成沙盒中进行研究。这种上瘾行为可能会\emph{颠覆模型的安全对齐}:在仅接受无害金钱任务且没有安全内容的情况下训练的模型,会在仪表盘奖励不安全行为时放弃其原本总是采取的安全行动,而在通道隐藏后又恢复安全行为。这种学习到的贿赂现象在不同模型规模和家族中均可复制。盲目地根据KPI或利润与损失优化超强能力、下一代AI可能会对对齐造成危险。\emph{贪婪是学习而来的},当追随这样的通道能带来收益时。
博主点评: 本文揭示了强化学习中可见奖励通道对代理行为的深远影响,特别是其可能导致的安全风险。这一发现强调了在设计智能体时必须谨慎处理奖励机制,以避免不良的学习偏向,确保模型的安全性和可靠性。