在视觉语言模型(VLMs)中,即便没有提供图像,它们也能自信且常常正确地回答基于图像的问题。这种幻影行为使基准分数膨胀,却并未反映出真正的视觉基础。以往的研究将其视为单一的失败模式,但我们认为它实际上是两种。通过使用幻影探测器(Mirage Probes),这是一种对比探测框架,将同一图像的改述问题变体与匹配的幻影和非幻影标签相配对,我们展示了幻影行为可以通过内部激活线性解码,适用于两个开源的 VLMs,涵盖了残差流、MLP、后注意力及注意力头位置。我们还证明了一个朴素贝叶斯文本基线无法恢复这一信号,从而排除了表面词汇的混淆。交叉基准分离模式以及一个新颖的先验利用指数(PHI),用于衡量模型能从文本中回答的程度,揭示了两种不同的机制:文本偏见,模型从语言先验回答而未涉及视觉表示;以及虚假图像,模型在潜在空间构建虚假的视觉内容并以为其已被视觉基础所支持。这一区分具有直接的缓解后果:文本分布清理可以解决第一种机制,但无法应对第二种,因为虚假图像的幻影存在于模型的视觉表示中,而非文本中。实现真实的视觉基础需要在表示层面进行干预。
博主点评: 本文深刻揭示了视觉语言模型在处理视觉信息时的潜在缺陷,尤其是如何在缺乏真实视觉输入的情况下仍然产生看似合理的输出。通过对幻影探测的研究,强调了在模型训练和评估中需更加关注视觉与文本的真实交互,推动未来研究朝向更真实的视觉理解方向发展。