[AI学术] MODE-RAG：多模态异常诊断与基于能量的检索增强生成评估

摘要

尽管多模态检索增强生成（M-RAG）提升了大型视觉-语言模型的性能，但其仍然高度易受跨模态幻觉、因果伪造和谄媚现象影响。现有的缓解管道往往面临干预悖论：静态规则可能会不必要地干扰准确的生成，而完全不加指导的多模态推理则会使现有的不匹配导致严重的逻辑伪造。

为量化和缓解这些幻觉，我们提出了一种多智能体系统——MODE-RAG，基于变分自由能（VFE）和内部注意状态动态地进行干预门控。高风险查询被路由到五个特定阶段的智能体，结合蒙特卡洛树搜索（MCTS）进行严格的因果推导，并通过对数值扰动来惩罚谄媚现象。

专门的校正和监督智能体确保格式稳定性并进行事后事实验证。为了客观评估我们的方法，我们引入了ModeVent，这是一个从MultiVent数据集中提取的具有挑战性的子集。广泛的实验表明，我们的系统有效减少了幻觉率和逻辑伪造，显著提高了M-RAG系统的鲁棒性。

博主点评：MODE-RAG通过引入动态干预机制和多智能体系统，解决了多模态生成中的重要问题，尤其是在减少逻辑伪造方面展现了强大的潜力。这种方法不仅丰富了现有的生成模型技术，也为未来的研究提供了新的方向。