[AI学术] 颠覆性多代理世界模型：基于LLM的全新多视角驾驶视频生成技术

摘要

生成性世界模型在自动驾驶领域面临两大未解决的矛盾：一是异构控制注入，涉及自由形式语言、高精度地图、轨迹和相机姿态等在不兼容的表示空间中共存；二是后处理的跨视角融合，导致每个相机的潜在表示无法编码全局三维几何。我们将这两者归结为一个共同根源：缺乏共享的符号中介，使语言、几何和像素在潜在令牌层面上对齐。

我们提出了DRIVE-CHOREO，这是一个LLM编排的多代理世界模型，将可控的多视角视频生成重新定义为潜在编排。三个Qwen2.5-VL代理共同协作：一个导演将用户意图解析为结构化的WorldScript，一个制图师将其锚定为空间布局令牌，一个审计员则提供跨视角的批评作为辅助监督，合力生成一个单一的位置信息令牌序列。该序列通过视图时间排列与多视角视频共同压缩，强制在3D变分自编码器的卷积感受野内实现相机间几何的对齐。

在nuScenes数据集上，DRIVE-CHOREO达到了新的多视角一致性和BEV mAP（21.6）的最优状态，且FVD（45.7）表现竞争力；纯使用我们合成数据训练的检测器在真实验证集上获得了+2.4 NDS，验证了其下游应用的实用性。

博主点评： DRIVE-CHOREO通过引入LLM技术和多代理系统，突破了传统生成模型在多视角视频生成中的局限性，展现了在复杂环境下的潜力，特别是对自动驾驶的实际应用具有重要意义。其新颖的架构和方法论为未来的研究提供了广阔的视野。