摘要
近年来,语音生成技术的进步显著提升了合成语音的自然度,使得反欺骗检测变得愈加困难。目前反欺骗系统的一个关键限制在于其对未见合成方法的鲁棒性不足。本文将自监督语音表示模型转化为专家混合(Mixture-of-Experts, MoE)架构,以改善其泛化能力。
在选定的编码器层中,传统的前馈块被多个专家网络所替代,这些专家网络通过层级门控机制进行控制。这样一来,各专家能够捕捉互补的声学模式,同时保留在自监督预训练中学到的表示。
我们进一步分析影响这种 MoE 转换性能的架构选择,并研究专家的激活行为。所提出的方法在14个欺骗数据集上进行了评估,宏观等错误率(EER)从5.46%降低至4.81%,相较于基线实现了11.9%的相对提升。
博主点评: 本文通过结合自监督学习与专家混合架构,展示了在面对新的合成语音挑战时,如何有效提升反欺骗系统的性能,具有重要的实用价值与研究意义。