[AI学术] 突破性时空融合模型实现心脏超声视频标准视图分类

在高效临床工作流程中，自动化分类标准心脏超声视图至关重要，但面临三大挑战：首先，公开可用的数据集稀缺且规模和视图覆盖有限；其次，某些现代视频级架构在超声视图分类中的性能尚未充分探讨；最后，一些视图类别展现出高度相似的空间外观，使得单帧特征不足以进行区分，同时异构帧质量也使得稳健的时间信息融合变得复杂。

为了解决这些挑战，我们发布了“九种视图心脏超声视频数据集（EV9V）”，该数据集包含5,138个视频、910,579帧和9种标准视图，至今为止是最大规模的公开超声视频数据集。利用EV9V，我们系统性地基准测试了代表性的视频分类架构，包括卷积神经网络（CNNs）、递归神经网络（RNNs）和变换器（Transformers）。

此外，我们提出了一种时空融合模型（STFM），这是一个高效的双流CNN-LSTM框架，能够同时捕捉空间解剖结构和时间心脏动态。该框架利用不确定性感知学习，在训练过程中优先选择代表性的视频片段，并在推理过程中进行基于证据的融合，从而提高对超声视频中帧质量变化的鲁棒性。大量实验表明，我们的方法在多种视频分类模型中表现出竞争力，验证了不确定性感知时空学习在超声视图分类中的有效性。代码已发布在 GitHub。

博主点评： 本文提出的时空融合模型在心脏超声视频分类领域具有重要意义，通过引入不确定性感知学习，显著提升了模型对不同帧质量的适应能力，提供了更为可靠的临床辅助工具。数据集的发布也为后续研究提供了宝贵资源，促进了该领域的进一步发展。