[AI学术] 稳态强制：平衡长时间自然视频扩散中的空间持久性与运动连续性

摘要

自回归视频扩散模型在流式生成中表现出色，但在长时间的生成中常常出现退化现象：静态场景布局漂移，而改善空间稳定性的机制往往抑制运动，导致自然流体（如水、火或烟雾）停滞。我们研究了固定摄像头下长时间自然视频生成中的稳定性与运动的权衡，因在移动摄像头设置中这两种失败模式不易分离。

我们提出了稳态强制（Steady-Forcing），这是一个结合了持久视觉锚点（V-Sink）、指数移动平均运动记忆（EMA-Sink）、块相对时间编码、周期性缓存净化及从Wan2.1-14B教师模型中蒸馏的任务聚焦配置的记忆与训练框架。这些组件旨在保持背景身份，同时在多分钟的自回归生成中维持视觉上可信的流体动态。

在七个基准测试中的评估表明，稳态强制显著改善了长时间背景一致性和成像质量，而盲人用户研究则显示出更强的感知稳定性与运动连续性。基准评估进一步表明，通用VBench聚合分数未能充分惩罚固定摄像头伪影，同时对由于漂移引起的光流给予奖励，而未直接惩罚纹理硬化或流动停滞，这为未来静态摄像头自然流动评估的任务特定基准奠定了基础。

项目页面

博主点评： 本文深入探讨了视频生成中的稳定性与运动之间的微妙平衡，提出的稳态强制框架有效解决了长时间生成中的常见问题，为视频生成领域的研究提供了新的思路与方法。其在视觉流体动态方面的创新，值得开发者与研究者关注。