[AI学术] REINS：无训练安全对齐视频扩散模型的新方法

摘要

开放权重的视频扩散模型能够生成逼真的不安全内容，从暴力到虚假信息。然而，现有的防御方法要么需要耗时的安全微调，导致通用能力下降，要么应用的外部过滤器容易被对抗性提示轻易绕过。我们提出了REINS（REpresentation-space INference-time Safety steering），这是一种无训练的方法，通过在推理时引导其内部表示来对齐视频扩散模型，以实现安全生成。

我们发现，安全相关的结构在线性编码于视频扩散变换器的隐藏状态激活中，通过在二元安全标签上进行监督主成分分析（Supervised PCA），可以找到一个单一方向，足以将安全与不安全生成轨迹分开。在推理时，将此方向添加到中间变换器层的隐藏状态中，可以将生成从有害内容重定向到语义相关的安全替代品，而无需权重更新、概念枚举，并且计算开销微乎其微。

通过机械分析，我们揭示了安全信息随着变换器深度单调累积的特性，但引导效果在中间层（约50%深度）达到峰值，暴露了信息可用性与下游传播能力之间的根本权衡。我们在9个视频扩散模型、多个参数规模（1.3B-5B）以及文本到视频和图像到视频生成中评估了REINS，至今为止，这是视频生成文献中最广泛的安全评估套件。

博主点评： REINS方法的提出为视频生成领域提供了一种创新的安全对齐策略，避免了传统方法在安全性与生成能力之间的权衡。其通过在推理时引导表示的方式，不仅提升了安全性，也保持了生成模型的灵活性，具有广泛的应用前景。