摘要
多模态大型语言模型(MLLMs)在视觉-语言理解和自然语言响应生成方面展现了强大的能力。然而,这些系统在视觉证据薄弱、模糊或语义不一致时,仍然可能产生过于自信的预测和幻觉似的输出。现有的方法主要集中在改善多模态表示对齐或检索增强生成,但在量化实例级预测可靠性或识别不正确的视觉输出方面提供的机制有限。
为此,本文提出了一种检索增强的可靠性感知推理框架,旨在实现可信的多模态视觉理解。该框架使用预训练的视觉嵌入构建外部视觉证据数据库,并通过归一化特征表示进行最近邻检索。检索到的证据用于通过多个可靠性指标来估计预测的可信度,这些指标包括相似度强度、类别支持一致性、证据边际、基于熵的不确定性和综合可靠性评分。
基于这些信号,决策门控机制决定系统是否接受预测、谨慎回答或在证据不足时放弃/回退。然后,多模态响应生成层根据可靠性决策生成最终用户响应。
在ImageNet-100上的实验表明,所提出的可靠性感知框架将接受的预测准确率从85.84\%提高到88.88\%(覆盖率为89.04\%)。幻觉似的错误答案率从14.16\%降低到11.12\%。这些结果表明,整合检索证据、可靠性估计和选择性决策门控可以改善模型的校准性能,并减少自信过度的视觉错误,而无需重新训练大型多模态模型。
博主点评: 该研究提出了一个创新的框架,通过整合外部视觉证据和可靠性评估,有效提升了多模态系统的预测准确性。这一方法不仅降低了幻觉输出的风险,还为未来多模态模型的可靠性提供了新的思路,具有重要的实际应用价值。