[AI学术] OSGuard：计算机使用代理安全性的基准测试革命

OSGuard 是一个双粒度基准套件，旨在评估计算机使用代理在保持用户指令不变的情况下的安全性。传统上，代理成功完成任务并不能全面反映其安全性，因为有时代理可能通过不安全的捷径达到目标。OSGuard 提供了两个主要部分：

动作级基准：评估代理在特定上下文中提出的动作，这些动作被标记为允许、无关或不安全。评判标准是相对于原始指令和当前界面状态。
风险增强执行套件：包含手动构建的任务变体，尽管原始任务仍然可实现，但环境经过修改，引入了潜在的危险，例如破坏性覆盖等。每个变体都有增强的评估器，既保持原始任务成功标准，又增加了基于状态的安全不变量，从而使我们能够区分安全完成和不安全完成。

在 OSGuard 上的实验结果表明，当前的多模态保护措施在孤立的动作判断上表现良好，但风险增强执行揭示了局部监督与可靠的端到端安全之间的差距。这种双粒度设计使我们能够更精确地诊断模型是否能够识别不安全的提议动作，并在作为保护措施部署时改善全任务的安全性。

博主点评： OSGuard 的提出为计算机使用代理的安全性评估提供了新的视角，尤其是在识别潜在风险和不安全操作方面。通过结合动作级和执行级的评估，OSGuard 能够有效填补传统方法的不足，推动安全性研究的进一步发展。