在自动驾驶领域,端到端的自动停车已成为一项关键任务。然而,现有方法存在黑箱特性,缺乏高级语义理解和可解释性,这阻碍了从道路到目标停车位的无缝长距离自动停车的实现。为了解决这些局限性,我们提出了ParkingTransformer,这是一种新颖的框架,利用多视角感知和大型语言模型(LLMs)的场景理解能力。通过将轨迹查询与LLMs的隐式状态特征结合,我们的方法直接与历史信息和原始传感器数据交互,以输出规划轨迹,消除了对密集的鸟瞰图(BEV)表示的需求。
为了补偿LLMs在空间推理能力上的不足,我们引入了3D位置编码,以显式注入空间几何意识。此外,设计了一种固定窗口流机制用于历史信息处理,显著提升了长期时间处理效率和推理速度。同时,采用粗到细的解码策略,逐步提高轨迹精度。在CARLA模拟器和真实车辆平台上进行了广泛的闭环实验。结果表明,我们的方法在CARLA模拟器中获得了61.32的驾驶评分,并在实际实验中取得了88.70%的平均成功率,验证了所提出算法的可行性和有效性。
博主点评: ParkingTransformer通过将LLMs与多视角感知结合,突破了传统自动停车方法的局限性,展现了深度学习在复杂环境下的潜力,尤其是在提升轨迹规划精度和效率方面。其在真实世界应用中的高成功率也为未来的自动驾驶技术提供了有力支持。