[AI学术] AIPatient Arena：基于EHR的临床咨询工作流中大语言模型评估新框架

在临床咨询任务中，大语言模型（LLMs）的潜力逐渐被认可。然而，大多数医学评估仍然是静态的、单回合的，或仅基于结果，这限制了它们反映真实医疗中顺序性、不确定性和互动性的能力。为此，我们提出了AIPatient Arena，一个基于电子健康记录（EHR）的评估框架，用于评估LLMs在八个临床能力维度上的临床实用性。

该框架将EHR数据整合到患者特定的知识图中，支持多轮的医患互动。我们在437名患者的主要队列及119和67名患者的两个超出分布的验证队列上应用了AIPatient Arena。结果表明，LLMs在医学访谈提问技能（QS；平均得分4.43-4.99/5）、伦理和专业行为（ET；4.38-4.93/5）以及临床解释的清晰度和透明性（EX；3.80-4.72/5）方面表现良好。

在信息整合（II；3.19-4.21/5）和药物安全性及合理性（MS；3.13-3.78/5）方面表现中等，但在处理模糊患者反应（HR；2.57-3.32/5）、信息覆盖（IC；2.08-3.02/5）以及诊断准确性和推理（Dx；2.63-3.55/5）方面存在持续性弱点。

基于过程的评估揭示了反复出现的互动失败，包括重复提问、遗漏病史以及不当处理不确定性等问题。更丰富的对话上下文改善了诊断推理，但在治疗计划方面的提升有限。这些发现表明，仅仅依赖最终答案的准确性不足以评估临床准备情况，强调了评估模型在整个咨询过程中如何收集、解释和传达信息的重要性。AIPatient Arena提供了一个基于EHR的、面向工作流的医疗LLMs预部署评估框架。

博主点评： AIPatient Arena的提出为临床环境中LLMs的有效性评估提供了新的视角，强调了多轮互动和信息处理的重要性。未来的研究应更多关注如何提升模型在真实世界应用中的表现，以应对医疗中的复杂性与不确定性。