自动驾驶正在向端到端策略学习转变,但可靠且可解释的策略评估仍是一个基本挑战,因为驾驶质量高度依赖于具体情境。常用的基于规则的驾驶指标如 EPDMS 具有可解释性,但缺乏情境意识;而最近的基于视觉语言模型(VLM)的评估虽然具备情境意识,却受到模糊的 VLM 输出和较弱的物理基础约束的限制。为了解决这一问题,我们提出了 DriveJudge。
DriveJudge 是一个驾驶评估代理,结合了基于规则的评估与 VLM 推理,并在理解环境上下文后选择性地调用物理基础的确定性规则函数。为训练和评估 DriveJudge,我们整理了一个大型数据集,包含 33,577 个具有挑战性的驾驶样本,并附有人类注释,以判断在特定场景中驾驶行为是否合理。通过该数据集,我们解决了驾驶指标评估这一尚未充分探讨的问题,并引入了两个与人类对齐的基准任务:驾驶质量分类和轨迹偏好选择。
DriveJudge 在驾驶质量分类中比 EPDMS 提高了 21.23 的 AUC,并在轨迹偏好选择上超越了最近的基于 VLM 的 DriveCritic 6.5%,为可解释且精确的驾驶评估设定了新标准。
博主点评: DriveJudge 的提出标志着自动驾驶评估方法的重大进步,通过结合规则与语义理解,提升了评估的可解释性与准确性,未来在自动驾驶领域具有广泛的应用潜力。