在电子健康记录(EHR)基础模型中,ICD诊断代码通常被视为平面标记,这忽略了能够捕捉疾病家族、子类别和细致诊断信息的临床意义层次结构。因此,现有的EHR表示学习方法并未明确利用编码系统中已经存在的层次结构。本研究探讨了ICD-10-CM层次结构作为临床表示学习的通用归纳偏置。
我们研究了两种互补机制来融入层次结构:首先,通过在BERT风格的变换器中增强诊断序列,加入对应于ICD层次结构不同层级的标记;其次,通过将层次信息注入图编码表示中,结合层次感知边和诊断共现结构。
我们评估了显式层次结构是否能改善下游预测,哪些层级的层次结构最有用,层次编码是否改善跨数据集的迁移,以及层次如何重塑嵌入相似性结构。实验在两个大型真实临床数据集上进行:MIMIC-IV用于预训练和领域内评估,eICU则用于通过冻结编码器探测评估跨数据集迁移。
研究结果表明,显式编码ICD层次结构在领域内和跨数据集设置中均优于平面代码表示,并揭示出最有用的层次级别依赖于任务和建模方法。更广泛地说,我们专注于层次感知的EHR表示学习,并展示了编码层次结构的好处在各种建模设置和层次级别中是可以推广的。
博主点评: 本文探讨了ICD代码的层次结构对EHR表示学习的重要性,提出了创新的模型架构,结合了BERT和图表示,展示了层次编码在临床数据分析中的潜力。这一研究不仅丰富了EHR领域的理论基础,也为实际应用提供了新思路,值得关注。