[AI学术] 驾驭安全边界：针对VLA驾驶规划的情景特定安全评估

在ISO 21448（SOTIF）下，视觉-语言-行动（VLA）驾驶规划的安全认证依赖于操作设计域（ODD）规范，该规范回答两个互补问题：规划者何时开始失败，失败的严重程度如何？我们对Alpamayo R1，一个拥有100亿参数的开放权重VLA驾驶系统，进行了评估，涉及15,968个（剪辑，攻击）对。研究发现保守的聚合差距：在15%的平均位移误差（ADE）预算下，安全阈值为$\sigma \leq 50$，掩盖了能够容忍测试网格顶端（$\sigma = 70$）的良好采样场景。通过对变化解释子集应用高斯混合模型（GMM），识别出六个离散的严重性等级（BIC最优$k{=}6$），因此具有相同均值误差的两个扰动条件在高严重性（C4/C5）失败的比例上可能存在显著差异。将这两种分析结合在同一数据集上，揭示出单独分析所无法得出的发现：噪声阈值最宽松的场景并非高严重性率最低的场景：尽管容忍更大的$\sigma$，STOP_SIGNAL的C4/C5份额约为LANE_KEEPING的4倍。因此，针对VLA驾驶的可部署SOTIF ODD规范需要一个二维安全边界，而不是每个危害的单一聚合值。

博主点评： 本文通过实证分析揭示了VLA驾驶系统在不同情境下的安全性能，强调了安全评估的复杂性。不同的场景和扰动条件对安全性的影响不容小觑，未来的安全标准应考虑更为细致的多维评估方法，以确保自动驾驶系统的可靠性与安全性。