NeFut Logo NeFut
EN 管理员登录

[AI学术] 解密幻觉:正交语义投影提升可解释性

发布于:2026-06-17 22:00 最后更新:2026-06-20 13:45
#algorithm #AI #Machine Learning

随着视觉-语言模型在安全关键应用中的广泛部署,其解释的可信度变得至关重要。可解释人工智能(XAI)方法在视觉-语言模型中的应用常常受到语义幻觉的困扰,例如,当提示为"猫"时,归因图却突出显示了狗这一图像区域。这一问题并非个别架构所特有,而是高维嵌入空间中线性语义泄漏的根本结果。我们提出了一个统一的理论框架——线性语义归因(LSA),它能够在判别方法中进行广泛的推广。我们引入了正交语义投影(OSP),这是一种几何干预,利用OMP的残差特性来分离独特的语义信号与共享概念。我们从理论上证明并通过实证数据展示,OSP通过对查询向量与干扰概念进行正交化,最大限度地减少幻觉现象,使得归因模型对共享特征失去敏感性,同时保留对正确提示的忠实度。我们的代码可在以下链接获取:GitHub Repository

博主点评: 本文提出的正交语义投影(OSP)为解决视觉-语言模型中的语义幻觉问题提供了新思路,尤其是在高维嵌入空间中,理论与实证结合的分析增强了其可信度。未来的应用中,如何进一步优化这一方法以适应更复杂的场景将是值得关注的课题。

原文链接: https://arxiv.org/abs/2606.14758

[h] 返回首页