摘要
基于大语言模型(LLM)的代理系统正在变得越来越强大并广泛部署,这也为现实世界中的对抗性滥用创造了越来越大的动力。一个关键的新兴威胁是分解攻击,在这种攻击中,有害任务被分解为更简单的、看似无害的子任务,这些子任务在单独执行时能够规避安全机制,但累积起来却能够实现恶意意图。
虽然最近的基准测试评估了代理在多轮和多工具使用环境下的安全性,但并未明确捕捉到这种分解滥用的形式,可能无法代表现实中的对抗执行流程。为此,我们引入了 DeCompBench,这是一个专门设计用于评估代理在分解攻击下安全性的基准测试工具。
DeCompBench 采用了分解设计原则,使用图形框架,能够将有害任务分解为单独无害且可执行的子任务,并具有现实的工作流程。我们的实验使用了一个定制的分解器,结果表明,最先进的代理在处理单一有害任务时表现出较高的拒绝率,但在处理其分解版本时拒绝率显著降低,且常常无意中实现了对抗目标。
这些发现强调了针对分解攻击进行安全评估及相应防御的必要性。我们的数据集是公开的,可以在 Hugging Face 找到。
博主点评: 在当前大语言模型的应用中,分解攻击的风险被严重低估。DeCompBench 的推出不仅揭示了现有安全评估的局限性,也为未来的安全防护策略提供了新的思路。值得所有开发者和研究者关注!