[AI学术] CineOrchestra：统一实体中心条件下的电影视频生成

CineOrchestra 是一种统一的视频扩散模型，能够同时控制多个主题、事件、相机和镜头转换。我们发现，这些异构的电影元素共享一个基本结构：每个元素都是在特定时间间隔内行动的实体。因此，可以通过一组共享的实体中心条件原语来表达所有这些元素，并通过参考图像来增强视觉实体。

这一框架将架构挑战简化为一个单一的位置信息编码问题，我们通过两个无参数的协调旋转嵌入来解决：

在两个新的基准测试中，CineOrchestra 的表现优于六种单轴专门模型，在密集字幕跟踪和镜头转换时机上均取得了一致的优势，并在成对用户研究和组件消融实验中显示出显著的提升。

博主点评： CineOrchestra 的创新之处在于其能够将多个复杂的电影元素统一处理，极大地提升了视频生成的灵活性和精确度。这种方法为未来的电影创作和视频生成开辟了新的可能性，值得关注。