[AI学术] DriveJudge：颠覆自动驾驶评估的新视角

自动驾驶正在向端到端策略学习转变，但可靠且可解释的策略评估仍是一个基本挑战，因为驾驶质量高度依赖于具体情境。常用的基于规则的驾驶指标如 EPDMS 具有可解释性，但缺乏情境意识；而最近的基于视觉语言模型（VLM）的评估虽然具备情境意识，却受到模糊的 VLM 输出和较弱的物理基础约束的限制。为了解决这一问题，我们提出了 DriveJudge。

DriveJudge 是一个驾驶评估代理，结合了基于规则的评估与 VLM 推理，并在理解环境上下文后选择性地调用物理基础的确定性规则函数。为训练和评估 DriveJudge，我们整理了一个大型数据集，包含 33,577 个具有挑战性的驾驶样本，并附有人类注释，以判断在特定场景中驾驶行为是否合理。通过该数据集，我们解决了驾驶指标评估这一尚未充分探讨的问题，并引入了两个与人类对齐的基准任务：驾驶质量分类和轨迹偏好选择。

DriveJudge 在驾驶质量分类中比 EPDMS 提高了 21.23 的 AUC，并在轨迹偏好选择上超越了最近的基于 VLM 的 DriveCritic 6.5%，为可解释且精确的驾驶评估设定了新标准。

博主点评： DriveJudge 的提出标志着自动驾驶评估方法的重大进步，通过结合规则与语义理解，提升了评估的可解释性与准确性，未来在自动驾驶领域具有广泛的应用潜力。