[AI学术] 视觉的误导与一致性的重要性：揭示视觉语言模型中的空间注意力与可靠性

摘要

多模态基础模型正日益成为推理代理，因而可靠性及其何时可能出现幻觉显得至关重要。我们提出的注意-置信假设认为，可靠性源于“结构性”视觉感知：对相关区域的紧密关注应表明答案可信，而分散的注意力则表示困惑。

我们通过视觉语言模型可靠性探测器（VLM Reliability Probe, VRP）对这一假设提出挑战，进行了一项系统的跨模型家族研究，探讨现代视觉语言模型中的可靠性信号。我们引入了结构注意力度量，包括聚类计数 (C_k) 和空间熵 (H_s)，以量化视觉编码器的注意力，并跟踪其在各层之间的演变 (Delta H_s)。

这揭示了一个“符号脱离”现象：模型通常在早期锁定视觉特征，但随后注意力分散，导致早期感知与最终生成之间的脱节。与基础假设相反，我们发现“聚类失败”现象：空间注意力与准确率的相关性接近于零 (R 约 0.001)。相反，可靠性是生成动态和内部状态分布的现象。

自一致性，即采样推理路径之间的协议率，是真相的主要预测因子 (R = 0.429)。扩展因果干预揭示出明显的架构差异：LLaVA在脆弱的后期瓶颈中锁定其预测，而PaliGemma和Qwen2-VL则在全球范围内分配可靠性，即使在其最具预测性的层级被摧毁超过50%时也保持韧性。对于当前的视觉语言模型，可靠性信号与视觉基础图无关，最好从生成时的动态和隐藏状态探测中推断。

博主点评： 本文挑战了传统的视觉注意力与模型可靠性之间的联系，提出了自一致性作为更可靠的预测因子。这一发现将影响未来视觉语言模型的设计与评估标准，强调了生成过程中的动态行为的重要性。通过深入分析模型的结构与生成机制，研究为理解模型的可靠性提供了新的视角。