摘要
多语言说话人验证面临挑战,因为语言依赖的声学变异会使说话人的身份与语言特征纠缠在一起,从而降低跨语言的泛化能力。在多语言训练中,嵌入通常会将语言线索与说话人身份编码在一起,导致说话人形成语言特定的聚类。为了解决这个问题,我们提出了 L-Proto,一种语言感知的情节原型训练策略,构建语言一致的情节。通过在每个情节中从单一语言中抽样说话人,L-Proto 在训练过程中减少了语言驱动的变异,并鼓励嵌入更加直接地关注说话人身份。
实验结果
在 TidyVoice Challenge 基准测试上的实验表明,与传统的微调和随机情节抽样相比,L-Proto 在多个骨干架构上展示了持续的性能提升。
博主点评: L-Proto 的提出有效解决了多语言说话人验证中的语言依赖性问题,通过构建语言一致的训练情节,显著提升了系统的泛化能力。这一方法在实际应用中具有广泛的前景,尤其是在多语言环境下的语音识别和验证任务中。其创新的训练策略为相关领域提供了新的研究方向。