[AI学术] 跨模态表示对齐：精准预测事件时间的新方法

摘要

在多模态临床数据中，准确的事件时间（TTE）预测因模态不平衡和分布变化而面临挑战。我们提出了一种基于基础模型的跨模态表示对齐框架，旨在在CT影像和纵向电子健康记录（EHR）数据之间进行对齐，以便在不同任务和机构间进行泛化。

CT和EHR模态通过领域特定的基础模型独立编码，并通过四种原则性融合策略在共享潜在空间中对齐：后融合、对比对齐、交叉注意力和共同注意力。

我们评估了两项临床不同的TTE任务：肺栓塞（PE）死亡率和心血管疾病（CVD）结果，基于大规模多机构队列（PE: N=3,099 训练; 1,098 内部; 435 外部; CVD: N=2,951 训练; 837 内部; 682 外部）。当模态贡献相当时，融合在一致性指数上相比单模态基线提高了1.5-5.4%。

总体来看，对比多模态融合，特别是使用CLMBR表示法，提供了最一致和统计上稳健的改进，尤其在PE死亡率预测中表现突出。对于主要不良心血管事件（MACE），交叉注意力（单热编码）在内部性能上表现最佳，而图像引导的共同注意力在外部性能上表现最佳。

因此，我们引入了一种可泛化的基于基础模型的跨模态对齐框架，并首次系统分析了在TTE预测中模态不平衡下的融合行为。我们的结果确立了任务感知的多模态对齐作为稳健泛化和可扩展临床部署的必要设计原则。

博主点评： 本文提出的跨模态对齐框架展示了如何有效融合CT和EHR数据，解决了模态不平衡的问题。这一研究不仅在临床应用上具有广泛前景，也为未来的多模态学习提供了新的思路，值得关注和深入探讨。