NeFut Logo NeFut
EN 管理员登录

[AI学术] ARB4WM:针对世界模型的对抗鲁棒性基准评估

发布于:2026-06-17 22:00 最后更新:2026-06-20 13:45
#AI #Machine Learning #optimization

在机器人和智能控制系统中,世界模型因其能够学习潜在动态以进行规划和决策而被广泛使用。随着这些系统在安全关键环境中的应用日益增加,了解其在对抗条件下的鲁棒性变得至关重要。然而,现有的评估缺乏统一的基准来测试世界模型代理在策略、价值和潜在动态层面的对抗威胁。为此,我们提出了 ARB4WM,这是一个统一的评估框架,用于在视觉扰动下评估世界模型代理的预部署鲁棒性和风险。ARB4WM 定义了跨这三个层面的五个白盒损失目标,并研究了它们在与单步或多步扰动策略和时间攻击模式(包括全帧、半序列和稀疏帧曝光)结合时的效果。具体而言,我们在 20 个来自 MetaWorld 和 DeepMind Control Suite 的任务上评估了四个 Dreamer 风格的代理,测试了不同的损失目标、扰动策略和时间攻击模式。结果表明,针对价值估计、潜在表示和 RSSM 动态的攻击可能与直接干扰策略同样具有破坏性,且早期或频繁的扰动尤其有害,而输入级防御在自适应攻击下提供的恢复能力有限。这些发现表明,对于世界模型,安全性、风险和可靠性评估应涵盖多个组件导向的攻击目标和时间曝光协议,而不仅仅依赖于动作空间的鲁棒性。

博主点评: ARB4WM 提出的评估框架为世界模型的对抗鲁棒性提供了系统化的分析方法,强调了多层次攻击的复杂性和重要性,推动了这一领域的安全性研究。该框架的实现和源代码开放,便于后续研究者进一步探索和验证。

原文链接: https://arxiv.org/abs/2606.16605

[h] 返回首页