[AI学术] 解密幻觉：正交语义投影提升可解释性

随着视觉-语言模型在安全关键应用中的广泛部署，其解释的可信度变得至关重要。可解释人工智能（XAI）方法在视觉-语言模型中的应用常常受到语义幻觉的困扰，例如，当提示为"猫"时，归因图却突出显示了狗这一图像区域。这一问题并非个别架构所特有，而是高维嵌入空间中线性语义泄漏的根本结果。我们提出了一个统一的理论框架——线性语义归因（LSA），它能够在判别方法中进行广泛的推广。我们引入了正交语义投影（OSP），这是一种几何干预，利用OMP的残差特性来分离独特的语义信号与共享概念。我们从理论上证明并通过实证数据展示，OSP通过对查询向量与干扰概念进行正交化，最大限度地减少幻觉现象，使得归因模型对共享特征失去敏感性，同时保留对正确提示的忠实度。我们的代码可在以下链接获取：GitHub Repository。

博主点评： 本文提出的正交语义投影（OSP）为解决视觉-语言模型中的语义幻觉问题提供了新思路，尤其是在高维嵌入空间中，理论与实证结合的分析增强了其可信度。未来的应用中，如何进一步优化这一方法以适应更复杂的场景将是值得关注的课题。