[AI学术] TerraTransfer：无专家示范的端到端驾驶策略学习革命

在自动驾驶领域，端到端的方法已在基准测试和实际部署中取得了卓越的表现。然而，传统的训练方式在各个阶段都非常昂贵：收集和标注数百万个驾驶帧的成本极高，而在图像上进行的闭环强化学习则受限于每一步的光线渲染成本以及通过大型视觉骨干网的前向传播。通过在向量化模拟器中的自我对弈，我们改变了这一经济学：每秒可进行数百万次滚动步骤，并且状态分布自然富含碰撞、近失和恢复等情况，这些情况在任何驾驶日志中都无法找到。

我们的方法利用了这种不对称性，将驾驶学习与视觉学习解耦。我们通过自我对弈预训练一个策略，然后通过动作KL散度和批关系低秩结构损失将其潜在空间与预训练的视觉骨干网对齐。动作目标来自自我对弈策略，因此对齐过程并不依赖于已记录轨迹的监督：只需成对的（图像，场景状态）帧数据集，无需基于专家示范的精心策划的数据。

在光线逼真的3D高斯喷溅闭环场景中，所得到的端到端策略与之前的端到端方法相匹配或超越。

博主点评： TerraTransfer通过独特的自我对弈策略，显著降低了传统自动驾驶模型的训练成本，提升了效率，展示了在无需专家示范的情况下，如何实现高效的驾驶策略学习。这一创新为未来的自动驾驶技术发展提供了新的思路和方法。