[AI学术] ProvenanceGuard：面向源的事实验证新方案，提升MCP基础LLM代理的可靠性

摘要

随着使用工具的LLM代理越来越多地采用模型上下文协议（MCP）来从异构证据源（如搜索、API、数据库、临床记录和药物工具）中回答问题，标准的事实性指标通常测试答案是否由汇总的证据支持，但忽略了一种源敏感的失败模式：一个主张可能在某个地方得到了支持，但被错误地归因于错误的源。我们称这种现象为跨源混淆。

我们引入了ProvenanceGuard，这是一个针对MCP基础答案的源感知验证器。它处理捕获的MCP痕迹，利用稳定的工具ID、源ID和原始输出；将答案分解为原子主张；将主张路由到特定源的证据；使用NLI和令牌对齐代理检查支持情况；比较声明的归因与路由源；并返回每个主张的裁决以及答案级别的允许/阻止决策。被阻止的答案可以通过检索增强答案修正和重新验证进行修复。

我们在281个医疗领域的MCP代理痕迹上进行了评估。266个经过裁决的子集产生了2325个由痕迹分割的LLM辅助主张标签；361个保留标签经过人工验证。在40个保留分割上，ProvenanceGuard在260个源合格主张上实现了阻止F1值0.802和源准确率0.858，优于不发出主张到源ID的源盲基线。在一个更困难的多源基准测试中，其阻止F1值达到0.846，而源加关系的准确率下降到0.229，显示出在语义相近的源中，确切的源归属仍然困难。修复和重新验证解决了全痕迹集中的所有被阻止答案，通常通过保守的回退方法实现。在50个受控的临床混淆探针中，ProvenanceGuard检测到所有注入的归属交换，且没有保留错误归属。这些结果表明，源归属是基于MCP的代理事实验证的一个独立维度。

博主点评： ProvenanceGuard的开发显著提升了MCP基础LLM代理在处理复杂证据源时的事实验证能力。通过细致的源追踪与主张验证，该系统有效解决了传统方法中存在的归属错误问题，显示出其在医疗领域等高风险应用中的潜力。整体来说，这是对LLM代理可靠性的重要贡献，值得深入研究与推广。