NeFut Logo NeFut
EN 管理员登录

[AI学术] REINS:无训练安全对齐视频扩散模型的新方法

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:47
#algorithm #AI #Open Source

摘要

开放权重的视频扩散模型能够生成逼真的不安全内容,从暴力到虚假信息。然而,现有的防御方法要么需要耗时的安全微调,导致通用能力下降,要么应用的外部过滤器容易被对抗性提示轻易绕过。我们提出了REINS(REpresentation-space INference-time Safety steering),这是一种无训练的方法,通过在推理时引导其内部表示来对齐视频扩散模型,以实现安全生成。

我们发现,安全相关的结构在线性编码于视频扩散变换器的隐藏状态激活中,通过在二元安全标签上进行监督主成分分析(Supervised PCA),可以找到一个单一方向,足以将安全与不安全生成轨迹分开。在推理时,将此方向添加到中间变换器层的隐藏状态中,可以将生成从有害内容重定向到语义相关的安全替代品,而无需权重更新、概念枚举,并且计算开销微乎其微。

通过机械分析,我们揭示了安全信息随着变换器深度单调累积的特性,但引导效果在中间层(约50%深度)达到峰值,暴露了信息可用性与下游传播能力之间的根本权衡。我们在9个视频扩散模型、多个参数规模(1.3B-5B)以及文本到视频和图像到视频生成中评估了REINS,至今为止,这是视频生成文献中最广泛的安全评估套件。

博主点评: REINS方法的提出为视频生成领域提供了一种创新的安全对齐策略,避免了传统方法在安全性与生成能力之间的权衡。其通过在推理时引导表示的方式,不仅提升了安全性,也保持了生成模型的灵活性,具有广泛的应用前景。

原文链接: https://arxiv.org/abs/2606.17257

[h] 返回首页