[AI学术] 视觉模型的幻影探测：揭示虚假视觉理解的真相

在视觉语言模型（VLMs）中，即便没有提供图像，它们也能自信且常常正确地回答基于图像的问题。这种幻影行为使基准分数膨胀，却并未反映出真正的视觉基础。以往的研究将其视为单一的失败模式，但我们认为它实际上是两种。通过使用幻影探测器（Mirage Probes），这是一种对比探测框架，将同一图像的改述问题变体与匹配的幻影和非幻影标签相配对，我们展示了幻影行为可以通过内部激活线性解码，适用于两个开源的 VLMs，涵盖了残差流、MLP、后注意力及注意力头位置。我们还证明了一个朴素贝叶斯文本基线无法恢复这一信号，从而排除了表面词汇的混淆。交叉基准分离模式以及一个新颖的先验利用指数（PHI），用于衡量模型能从文本中回答的程度，揭示了两种不同的机制：文本偏见，模型从语言先验回答而未涉及视觉表示；以及虚假图像，模型在潜在空间构建虚假的视觉内容并以为其已被视觉基础所支持。这一区分具有直接的缓解后果：文本分布清理可以解决第一种机制，但无法应对第二种，因为虚假图像的幻影存在于模型的视觉表示中，而非文本中。实现真实的视觉基础需要在表示层面进行干预。

博主点评： 本文深刻揭示了视觉语言模型在处理视觉信息时的潜在缺陷，尤其是如何在缺乏真实视觉输入的情况下仍然产生看似合理的输出。通过对幻影探测的研究，强调了在模型训练和评估中需更加关注视觉与文本的真实交互，推动未来研究朝向更真实的视觉理解方向发展。