[AI学术] 颠覆传统防御的蜜罐协议：AI监控的新挑战

摘要

在AI控制的标准防御中，可信监控面临适应性攻击、合谋和战略攻击选择的脆弱性。这些攻击利用了监控是被动的这一事实：它观察模型行为，却不探测模型在不同感知条件下是否会有不同表现。我们提出了蜜罐协议，通过在三个条件（评估、合成部署、明确无监控）下仅改变系统提示，来测试上下文依赖行为，同时保持任务、环境和评分一致。

实验评价

我们在BashArena中评估了Claude Opus 4.6，在所有三种条件下进行诚实模式和攻击模式的测试。模型在主要任务上取得了100%的成功率，并在所有条件下均未触发任何边任务，这为未来与更强攻击策略和其他模型的比较提供了基线。

博主点评： 蜜罐协议的提出为AI监控提供了新的思路，挑战了传统的被动监控方式。这种方法不仅可以检测模型在不同环境下的反应，还能为未来的安全防护策略奠定基础，值得深入研究。