[AI学术] ARB4WM：针对世界模型的对抗鲁棒性基准评估

在机器人和智能控制系统中，世界模型因其能够学习潜在动态以进行规划和决策而被广泛使用。随着这些系统在安全关键环境中的应用日益增加，了解其在对抗条件下的鲁棒性变得至关重要。然而，现有的评估缺乏统一的基准来测试世界模型代理在策略、价值和潜在动态层面的对抗威胁。为此，我们提出了 ARB4WM，这是一个统一的评估框架，用于在视觉扰动下评估世界模型代理的预部署鲁棒性和风险。ARB4WM 定义了跨这三个层面的五个白盒损失目标，并研究了它们在与单步或多步扰动策略和时间攻击模式（包括全帧、半序列和稀疏帧曝光）结合时的效果。具体而言，我们在 20 个来自 MetaWorld 和 DeepMind Control Suite 的任务上评估了四个 Dreamer 风格的代理，测试了不同的损失目标、扰动策略和时间攻击模式。结果表明，针对价值估计、潜在表示和 RSSM 动态的攻击可能与直接干扰策略同样具有破坏性，且早期或频繁的扰动尤其有害，而输入级防御在自适应攻击下提供的恢复能力有限。这些发现表明，对于世界模型，安全性、风险和可靠性评估应涵盖多个组件导向的攻击目标和时间曝光协议，而不仅仅依赖于动作空间的鲁棒性。

博主点评： ARB4WM 提出的评估框架为世界模型的对抗鲁棒性提供了系统化的分析方法，强调了多层次攻击的复杂性和重要性，推动了这一领域的安全性研究。该框架的实现和源代码开放，便于后续研究者进一步探索和验证。