NeFut Logo NeFut
EN 管理员登录

[AI学术] 视觉的误导与一致性的重要性:揭示视觉语言模型中的空间注意力与可靠性

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:49
#algorithm #AI #Machine Learning

摘要

多模态基础模型正日益成为推理代理,因而可靠性及其何时可能出现幻觉显得至关重要。我们提出的注意-置信假设认为,可靠性源于“结构性”视觉感知:对相关区域的紧密关注应表明答案可信,而分散的注意力则表示困惑。

我们通过视觉语言模型可靠性探测器(VLM Reliability Probe, VRP)对这一假设提出挑战,进行了一项系统的跨模型家族研究,探讨现代视觉语言模型中的可靠性信号。我们引入了结构注意力度量,包括聚类计数 (C_k) 和空间熵 (H_s),以量化视觉编码器的注意力,并跟踪其在各层之间的演变 (Delta H_s)。

这揭示了一个“符号脱离”现象:模型通常在早期锁定视觉特征,但随后注意力分散,导致早期感知与最终生成之间的脱节。与基础假设相反,我们发现“聚类失败”现象:空间注意力与准确率的相关性接近于零 (R 约 0.001)。相反,可靠性是生成动态和内部状态分布的现象。

自一致性,即采样推理路径之间的协议率,是真相的主要预测因子 (R = 0.429)。扩展因果干预揭示出明显的架构差异:LLaVA在脆弱的后期瓶颈中锁定其预测,而PaliGemma和Qwen2-VL则在全球范围内分配可靠性,即使在其最具预测性的层级被摧毁超过50%时也保持韧性。对于当前的视觉语言模型,可靠性信号与视觉基础图无关,最好从生成时的动态和隐藏状态探测中推断。

博主点评: 本文挑战了传统的视觉注意力与模型可靠性之间的联系,提出了自一致性作为更可靠的预测因子。这一发现将影响未来视觉语言模型的设计与评估标准,强调了生成过程中的动态行为的重要性。通过深入分析模型的结构与生成机制,研究为理解模型的可靠性提供了新的视角。

原文链接: https://arxiv.org/abs/2606.17389

[h] 返回首页