在自主代理中,基于LLM的防护措施已成为抵御提示注入和越狱攻击的有效防线。然而,我们揭示了这些防护措施的推理和任务跟随能力引入了一种新型脆弱性:攻击者可以注入精心构造的数据,使防护措施陷入扩展推理循环,从而实施系统性的拒绝服务(DoS)攻击。为了系统性地揭示这一威胁,我们设计了一个束搜索优化框架,构造自然语言有效载荷,以最大化防护措施的推理长度,利用由策略库指导的LLM提议者。基于对防护措施遵循模式的观察,我们还提供了另一个攻击框架,利用机制感知的结构突变,计算负载更低。
攻击效果通过两个部分进行系统评估。首先,在独立评估中,该攻击在多种防护架构、安全模板和代理基准中具有普遍性。在单一开源替代模型上优化的有效载荷成功迁移到八个领先模型骨架(如Claude、GPT、Gemini、DeepSeek和Qwen),实现了13到63倍的令牌放大。其次,在端到端的真实世界代理部署(如网页、桌面、代码和多代理系统)中,该攻击显示出高达148倍的延迟放大。我们展示了单个被污染文档可以饱和共享的防护基础设施,有效地使共存代理饥饿,瘫痪整个系统。通过揭示这一可用性缺陷,我们的工作强调了开发成本受限、推理稳健的防护措施的迫切需求。
博主点评: 该研究揭示了当前LLM防护措施的潜在弱点,强调了在设计安全系统时需要考虑的复杂性。随着技术的进步,未来的防护措施必须更加健壮,以抵御新型的攻击策略。