NeFut Logo NeFut
EN 管理员登录

[AI学术] SpeechDx:临床语音AI的多任务基准测试

发布于:2026-06-17 22:00 最后更新:2026-06-20 13:45
#AI #Machine Learning #Open Source

摘要

语音为健康提供了独特的信息窗口,同时涉及神经、运动、呼吸和发声系统。目前的临床语音AI方法主要通过孤立的特定条件研究取得进展,这使得结果难以比较且难以评估泛化能力。我们推出了SpeechDx,这是一个涵盖12个数据集和27个任务的大规模临床语音AI基准,涉及多种健康状况。

为了在共享的临床机制上进行评估,SpeechDx通过干扰的语音产生阶段(概念化、表述和发音)来结构化任务。该基准测试通过包括有限标注数据的任务,并在多个数据集上评估相同的健康状况,来测试泛化能力,区分临床上有意义的模式与数据集伪影。

我们系统评估了12种最先进的音频编码器在所有任务和零-shot跨条件转移下的表现。结果显示,大规模语音模型代表了最强的总体基准,领域特定模型仅在密切匹配的任务上提高性能,而当前没有任何表示能够在临床语音领域中可靠地泛化。SpeechDx建立了一个共享的评估框架,以跟踪朝向通用临床语音表征的进展。

博主点评: SpeechDx为临床语音AI的研究提供了一个重要的基准测试平台,通过系统的任务结构和多样的数据集,能够有效评估模型的泛化能力。这对推动临床应用及其标准化具有重要意义,未来亟需更多领域特定模型的优化与发展。

原文链接: https://arxiv.org/abs/2606.17339

[h] 返回首页