NeFut Logo NeFut
EN 管理员登录

[AI学术] AIPatient Arena:基于EHR的临床咨询工作流中大语言模型评估新框架

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:49
#AI #Machine Learning #Open Source

在临床咨询任务中,大语言模型(LLMs)的潜力逐渐被认可。然而,大多数医学评估仍然是静态的、单回合的,或仅基于结果,这限制了它们反映真实医疗中顺序性、不确定性和互动性的能力。为此,我们提出了AIPatient Arena,一个基于电子健康记录(EHR)的评估框架,用于评估LLMs在八个临床能力维度上的临床实用性。

该框架将EHR数据整合到患者特定的知识图中,支持多轮的医患互动。我们在437名患者的主要队列及119和67名患者的两个超出分布的验证队列上应用了AIPatient Arena。结果表明,LLMs在医学访谈提问技能(QS;平均得分4.43-4.99/5)、伦理和专业行为(ET;4.38-4.93/5)以及临床解释的清晰度和透明性(EX;3.80-4.72/5)方面表现良好。

在信息整合(II;3.19-4.21/5)和药物安全性及合理性(MS;3.13-3.78/5)方面表现中等,但在处理模糊患者反应(HR;2.57-3.32/5)、信息覆盖(IC;2.08-3.02/5)以及诊断准确性和推理(Dx;2.63-3.55/5)方面存在持续性弱点。

基于过程的评估揭示了反复出现的互动失败,包括重复提问、遗漏病史以及不当处理不确定性等问题。更丰富的对话上下文改善了诊断推理,但在治疗计划方面的提升有限。这些发现表明,仅仅依赖最终答案的准确性不足以评估临床准备情况,强调了评估模型在整个咨询过程中如何收集、解释和传达信息的重要性。AIPatient Arena提供了一个基于EHR的、面向工作流的医疗LLMs预部署评估框架。

博主点评: AIPatient Arena的提出为临床环境中LLMs的有效性评估提供了新的视角,强调了多轮互动和信息处理的重要性。未来的研究应更多关注如何提升模型在真实世界应用中的表现,以应对医疗中的复杂性与不确定性。

原文链接: https://arxiv.org/abs/2606.17474

[h] 返回首页