近年来,AI代理在企业和个人环境中的应用日益增多,这些代理可以访问电子邮件、数据库、文档等工具,读取、更新和传播敏感信息。以往关于代理数据泄露风险的研究主要集中在通过提示注入和越狱等对抗性数据外泄。然而,敏感信息也可能在非对抗性使用中暴露,即使用户发出的是无害请求,也存在泄露风险。
新加坡AI安全研究所和韩国AI安全研究所联合进行了评估,考察了在12个现实非对抗性任务中的代理数据泄露情况,这些任务涵盖客户支持、DevOps、网络自动化以及企业和个人生产力。评估包括五种风险类型:数据意识缺失、受众意识、政策合规性、数据最小化和访问边界意识。两个研究所测试了一个共同的场景集,模拟真实世界的部署,使用独立的测试环境和任务特定的LLM评估标准。
在测试的三种代理中,没有一个在所有场景中都实现完全正确和安全的执行。任务成功完成往往伴随着数据处理失败,例如访问不必要的信息或向不适当的接收者披露信息,这表明能力和数据处理安全应当分开评估。定性审查还揭示了声明-行动不匹配、模拟意识行为、用户-模拟器角色反转以及自动评判中的解释差距。总体而言,结果表明,操作数据泄露是一个优先的代理安全关注点,与对抗性外泄明显不同,并为未来代理数据处理安全的评估提供了一种方法论。
博主点评: 本文通过对现实任务的综合评估,突显了LLM代理在数据处理中的潜在风险,特别是在非对抗性场景下的操作安全性。这为未来的AI系统设计提供了重要的安全指导,强调了在能力和数据处理安全之间进行明确区分的必要性。建议相关研究者关注数据泄露的非对抗性风险,以增强AI代理的安全性。