摘要
随着使用工具的LLM代理越来越多地采用模型上下文协议(MCP)来从异构证据源(如搜索、API、数据库、临床记录和药物工具)中回答问题,标准的事实性指标通常测试答案是否由汇总的证据支持,但忽略了一种源敏感的失败模式:一个主张可能在某个地方得到了支持,但被错误地归因于错误的源。我们称这种现象为跨源混淆。
我们引入了ProvenanceGuard,这是一个针对MCP基础答案的源感知验证器。它处理捕获的MCP痕迹,利用稳定的工具ID、源ID和原始输出;将答案分解为原子主张;将主张路由到特定源的证据;使用NLI和令牌对齐代理检查支持情况;比较声明的归因与路由源;并返回每个主张的裁决以及答案级别的允许/阻止决策。被阻止的答案可以通过检索增强答案修正和重新验证进行修复。
我们在281个医疗领域的MCP代理痕迹上进行了评估。266个经过裁决的子集产生了2325个由痕迹分割的LLM辅助主张标签;361个保留标签经过人工验证。在40个保留分割上,ProvenanceGuard在260个源合格主张上实现了阻止F1值0.802和源准确率0.858,优于不发出主张到源ID的源盲基线。在一个更困难的多源基准测试中,其阻止F1值达到0.846,而源加关系的准确率下降到0.229,显示出在语义相近的源中,确切的源归属仍然困难。修复和重新验证解决了全痕迹集中的所有被阻止答案,通常通过保守的回退方法实现。在50个受控的临床混淆探针中,ProvenanceGuard检测到所有注入的归属交换,且没有保留错误归属。这些结果表明,源归属是基于MCP的代理事实验证的一个独立维度。
博主点评: ProvenanceGuard的开发显著提升了MCP基础LLM代理在处理复杂证据源时的事实验证能力。通过细致的源追踪与主张验证,该系统有效解决了传统方法中存在的归属错误问题,显示出其在医疗领域等高风险应用中的潜力。整体来说,这是对LLM代理可靠性的重要贡献,值得深入研究与推广。