摘要
在AI控制的标准防御中,可信监控面临适应性攻击、合谋和战略攻击选择的脆弱性。这些攻击利用了监控是被动的这一事实:它观察模型行为,却不探测模型在不同感知条件下是否会有不同表现。我们提出了蜜罐协议,通过在三个条件(评估、合成部署、明确无监控)下仅改变系统提示,来测试上下文依赖行为,同时保持任务、环境和评分一致。
实验评价
我们在BashArena中评估了Claude Opus 4.6,在所有三种条件下进行诚实模式和攻击模式的测试。模型在主要任务上取得了100%的成功率,并在所有条件下均未触发任何边任务,这为未来与更强攻击策略和其他模型的比较提供了基线。
博主点评: 蜜罐协议的提出为AI监控提供了新的思路,挑战了传统的被动监控方式。这种方法不仅可以检测模型在不同环境下的反应,还能为未来的安全防护策略奠定基础,值得深入研究。