NeFut Logo NeFut
EN 管理员登录

[AI学术] 突破性时空融合模型实现心脏超声视频标准视图分类

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:49
#AI #Machine Learning #DeepSeek

在高效临床工作流程中,自动化分类标准心脏超声视图至关重要,但面临三大挑战:首先,公开可用的数据集稀缺且规模和视图覆盖有限;其次,某些现代视频级架构在超声视图分类中的性能尚未充分探讨;最后,一些视图类别展现出高度相似的空间外观,使得单帧特征不足以进行区分,同时异构帧质量也使得稳健的时间信息融合变得复杂。

为了解决这些挑战,我们发布了“九种视图心脏超声视频数据集(EV9V)”,该数据集包含5,138个视频、910,579帧和9种标准视图,至今为止是最大规模的公开超声视频数据集。利用EV9V,我们系统性地基准测试了代表性的视频分类架构,包括卷积神经网络(CNNs)、递归神经网络(RNNs)和变换器(Transformers)。

此外,我们提出了一种时空融合模型(STFM),这是一个高效的双流CNN-LSTM框架,能够同时捕捉空间解剖结构和时间心脏动态。该框架利用不确定性感知学习,在训练过程中优先选择代表性的视频片段,并在推理过程中进行基于证据的融合,从而提高对超声视频中帧质量变化的鲁棒性。大量实验表明,我们的方法在多种视频分类模型中表现出竞争力,验证了不确定性感知时空学习在超声视图分类中的有效性。代码已发布在 GitHub

博主点评: 本文提出的时空融合模型在心脏超声视频分类领域具有重要意义,通过引入不确定性感知学习,显著提升了模型对不同帧质量的适应能力,提供了更为可靠的临床辅助工具。数据集的发布也为后续研究提供了宝贵资源,促进了该领域的进一步发展。

原文链接: https://arxiv.org/abs/2606.17437

[h] 返回首页