NeFut Logo NeFut
EN 管理员登录

[AI学术] 颠覆性多代理世界模型:基于LLM的全新多视角驾驶视频生成技术

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:49
#AI #Machine Learning #Open Source

摘要

生成性世界模型在自动驾驶领域面临两大未解决的矛盾:一是异构控制注入,涉及自由形式语言、高精度地图、轨迹和相机姿态等在不兼容的表示空间中共存;二是后处理的跨视角融合,导致每个相机的潜在表示无法编码全局三维几何。我们将这两者归结为一个共同根源:缺乏共享的符号中介,使语言、几何和像素在潜在令牌层面上对齐。

我们提出了DRIVE-CHOREO,这是一个LLM编排的多代理世界模型,将可控的多视角视频生成重新定义为潜在编排。三个Qwen2.5-VL代理共同协作:一个导演将用户意图解析为结构化的WorldScript,一个制图师将其锚定为空间布局令牌,一个审计员则提供跨视角的批评作为辅助监督,合力生成一个单一的位置信息令牌序列。该序列通过视图时间排列与多视角视频共同压缩,强制在3D变分自编码器的卷积感受野内实现相机间几何的对齐。

在nuScenes数据集上,DRIVE-CHOREO达到了新的多视角一致性和BEV mAP(21.6)的最优状态,且FVD(45.7)表现竞争力;纯使用我们合成数据训练的检测器在真实验证集上获得了+2.4 NDS,验证了其下游应用的实用性。

博主点评: DRIVE-CHOREO通过引入LLM技术和多代理系统,突破了传统生成模型在多视角视频生成中的局限性,展现了在复杂环境下的潜力,特别是对自动驾驶的实际应用具有重要意义。其新颖的架构和方法论为未来的研究提供了广阔的视野。

原文链接: https://arxiv.org/abs/2606.17536

[h] 返回首页