[AI学术] SpeechDx：临床语音AI的多任务基准测试

语音为健康提供了独特的信息窗口，同时涉及神经、运动、呼吸和发声系统。目前的临床语音AI方法主要通过孤立的特定条件研究取得进展，这使得结果难以比较且难以评估泛化能力。我们推出了SpeechDx，这是一个涵盖12个数据集和27个任务的大规模临床语音AI基准，涉及多种健康状况。

为了在共享的临床机制上进行评估，SpeechDx通过干扰的语音产生阶段（概念化、表述和发音）来结构化任务。该基准测试通过包括有限标注数据的任务，并在多个数据集上评估相同的健康状况，来测试泛化能力，区分临床上有意义的模式与数据集伪影。

我们系统评估了12种最先进的音频编码器在所有任务和零-shot跨条件转移下的表现。结果显示，大规模语音模型代表了最强的总体基准，领域特定模型仅在密切匹配的任务上提高性能，而当前没有任何表示能够在临床语音领域中可靠地泛化。SpeechDx建立了一个共享的评估框架，以跟踪朝向通用临床语音表征的进展。

博主点评： SpeechDx为临床语音AI的研究提供了一个重要的基准测试平台，通过系统的任务结构和多样的数据集，能够有效评估模型的泛化能力。这对推动临床应用及其标准化具有重要意义，未来亟需更多领域特定模型的优化与发展。