摘要
语音为健康提供了独特的信息窗口,同时涉及神经、运动、呼吸和发声系统。目前的临床语音AI方法主要通过孤立的特定条件研究取得进展,这使得结果难以比较且难以评估泛化能力。我们推出了SpeechDx,这是一个涵盖12个数据集和27个任务的大规模临床语音AI基准,涉及多种健康状况。
为了在共享的临床机制上进行评估,SpeechDx通过干扰的语音产生阶段(概念化、表述和发音)来结构化任务。该基准测试通过包括有限标注数据的任务,并在多个数据集上评估相同的健康状况,来测试泛化能力,区分临床上有意义的模式与数据集伪影。
我们系统评估了12种最先进的音频编码器在所有任务和零-shot跨条件转移下的表现。结果显示,大规模语音模型代表了最强的总体基准,领域特定模型仅在密切匹配的任务上提高性能,而当前没有任何表示能够在临床语音领域中可靠地泛化。SpeechDx建立了一个共享的评估框架,以跟踪朝向通用临床语音表征的进展。
博主点评: SpeechDx为临床语音AI的研究提供了一个重要的基准测试平台,通过系统的任务结构和多样的数据集,能够有效评估模型的泛化能力。这对推动临床应用及其标准化具有重要意义,未来亟需更多领域特定模型的优化与发展。