在ISO 21448(SOTIF)下,视觉-语言-行动(VLA)驾驶规划的安全认证依赖于操作设计域(ODD)规范,该规范回答两个互补问题:规划者何时开始失败,失败的严重程度如何?我们对Alpamayo R1,一个拥有100亿参数的开放权重VLA驾驶系统,进行了评估,涉及15,968个(剪辑,攻击)对。研究发现保守的聚合差距:在15%的平均位移误差(ADE)预算下,安全阈值为$\sigma \leq 50$,掩盖了能够容忍测试网格顶端($\sigma = 70$)的良好采样场景。通过对变化解释子集应用高斯混合模型(GMM),识别出六个离散的严重性等级(BIC最优$k{=}6$),因此具有相同均值误差的两个扰动条件在高严重性(C4/C5)失败的比例上可能存在显著差异。将这两种分析结合在同一数据集上,揭示出单独分析所无法得出的发现:噪声阈值最宽松的场景并非高严重性率最低的场景:尽管容忍更大的$\sigma$,STOP_SIGNAL的C4/C5份额约为LANE_KEEPING的4倍。因此,针对VLA驾驶的可部署SOTIF ODD规范需要一个二维安全边界,而不是每个危害的单一聚合值。
博主点评: 本文通过实证分析揭示了VLA驾驶系统在不同情境下的安全性能,强调了安全评估的复杂性。不同的场景和扰动条件对安全性的影响不容小觑,未来的安全标准应考虑更为细致的多维评估方法,以确保自动驾驶系统的可靠性与安全性。