[AI学术] 突破性框架：利用Agentic AI降低医疗诊断错误与隐性幻觉

在最近的研究中，基于大型语言模型（LLMs）和多智能体系统的Agentic AI展现出在医疗推理中的潜力。然而，开放式对话代理仍面临两个关键失败模式：过早的诊断交接和在到达患者之前可能未被发现的隐性临床幻觉。为了解决这两个问题，我们提出了一种多智能体框架，通过用确定性编排约束替换“LLM作为裁判”的路由。该框架包含两种安全机制。首先，一个神经符号状态跟踪门强制执行OLDCARTS临床协议的完整性（起始、位置、持续时间、特征、加重/缓解因素、辐射、时间和严重性），在收集所有必要维度之前阻止诊断转换。其次，一个认知不确定性量化（UQ）门计算K=5个独立诊断样本的语义熵（H），以识别并拦截交付前的分歧输出。我们使用由llama-3.1-70b-instruct模型驱动的模拟患者代理在150个测试案例中评估该系统。完整架构实现了49.3%的诊断精度，相较于不受约束的基线提高了11.3个百分点。此外，我们观察到统计上显著的负相关（r = -0.181, p < 0.05）。

博主点评： 该框架有效结合了神经符号方法与不确定性量化，为医疗领域的AI应用提供了重要的安全保障，展示了Agentic AI在提升诊断精度方面的潜力，值得关注其在实际应用中的表现。