AI代理正在改变我们与技术的关系,能够自主执行复杂任务,如网络防御、科学发现和产品开发,开启了一个生产力的新纪元。预计到2030年,仅在美国,AI代理将创造2.9万亿美元的经济价值。随着这些代理能力的增强,对其安全保障的需求也日益增加。为此,我们开发了AI控制路线图,这是一个构建和管理我们在Google内部部署的高级AI的框架。
我们的“深度防御”方法超越了传统的模型对齐,增加了系统级安全保障,即使在对齐不完美的情况下也能提供保障。我们的安全策略以强大的基础为起点,结合传统的保障措施,如沙箱、终端安全和提示注入抵抗,采用模型对齐作为主要防御手段,确保AI本质上是安全和有益的。
AI控制路线图的核心是将内部代理视为潜在的非对齐者,类似于驾驶教练与学生的关系,教练信任学生,但随时准备接管控制。我们的系统根据代理的验证行为授予权限,通过控制和逐步访问建立信任。
我们的方法关注三个关键领域:首先,基于网络安全最佳实践,开发了一种新的AI威胁建模框架,将不受信任的AI代理视为潜在的“内部威胁”。其次,利用其他受信任的AI系统作为“监督者”,持续监控工作代理的推理、行动和计划。最后,我们不断衡量性能,确保系统的有效性。
随着AI模型的不断进步,我们的防御也必须同步增强。AI控制路线图将安全协议与AI能力的可测量里程碑相映射,确保应对潜在的威胁。此外,我们构建了一个内部原型的异步监控系统,分析了百万个编码代理任务,为安全协议的改进提供了宝贵的见解。
AI控制路线图是我们多层次代理安全方法的重要组成部分,呼吁行业、政策制定者和学术界共同协作,以提升整个生态系统的安全性。我们还发布了技术框架《代理安全的三层》,详细阐述了如何在个体代理、多代理系统和更广泛生态系统中改善安全。
博主点评: 通过构建系统级的安全保障,Google在面对日益复杂的AI技术时展现了前瞻性思维。这种多层次的防护措施不仅增强了内部安全,也为整个行业树立了标杆,确保AI的安全应用和部署。未来,随着技术的不断演进,如何平衡创新与安全将是关键挑战。