NeFut Logo NeFut
EN 管理员登录

[AI学术] CineOrchestra:统一实体中心条件下的电影视频生成

发布于:2026-06-16 22:00 最后更新:2026-06-17 01:38
#AI #Machine Learning #Open Source

CineOrchestra 是一种统一的视频扩散模型,能够同时控制多个主题、事件、相机和镜头转换。我们发现,这些异构的电影元素共享一个基本结构:每个元素都是在特定时间间隔内行动的实体。因此,可以通过一组共享的实体中心条件原语来表达所有这些元素,并通过参考图像来增强视觉实体。

这一框架将架构挑战简化为一个单一的位置信息编码问题,我们通过两个无参数的协调旋转嵌入来解决:

  1. 时间间隔采样的旋转位置编码(RoPE),可在持续时间变化显著的事件中保持一致的注意力行为。
  2. 二维实体时间交叉注意力 RoPE,能够消歧义每个实体的条件,并将其路由到相应的时空区域。

在两个新的基准测试中,CineOrchestra 的表现优于六种单轴专门模型,在密集字幕跟踪和镜头转换时机上均取得了一致的优势,并在成对用户研究和组件消融实验中显示出显著的提升。

博主点评: CineOrchestra 的创新之处在于其能够将多个复杂的电影元素统一处理,极大地提升了视频生成的灵活性和精确度。这种方法为未来的电影创作和视频生成开辟了新的可能性,值得关注。

原文链接: https://arxiv.org/abs/2606.13768

[h] 返回首页