[AI学术] 强制延迟攻击：操控多模态大语言模型级联中的路由决策

摘要

多模态大语言模型（MLLMs）在视觉推理能力上表现出色，但为每个查询服务于一个大型模型的计算成本非常高。MLLM级联通过首先查询一个较弱但更便宜的模型，然后在弱模型输出不确定时转向强模型，从而降低了这一成本。然而，由于弱模型的置信度直接控制着计算资源的分配，这些系统暴露出一个新的攻击面：对手可以操控置信度，使得他们的查询始终被延迟到强模型。

为此，我们提出了强制延迟攻击（FDA），这是一种对抗性图像攻击，通过降低弱模型的置信度来导致级联将查询路由到强模型。FDA通过优化温度平坦化目标来学习一个通用的边界触发器。该目标推动弱模型在触发输入上的标记分布朝向其干净响应构建的更不集中目标。

在多个数据集、模型系列和延迟指标上，FDA一直在增加强模型的路由，同时超越了图像扰动和提示注入基线。这些结果表明，MLLM级联容易受到操控计算分配的攻击，强制无意使用强模型，而不直接针对答案的正确性。

博主点评： 强制延迟攻击（FDA）展示了多模态大语言模型在计算资源分配上的脆弱性，提供了一种新颖的攻击方式，值得研究者关注其潜在的安全隐患与防护措施。此研究不仅揭示了模型设计的不足，也为如何增强模型抵抗攻击提供了启示。