[AI学术] L-Proto：语言感知的多语言说话人验证新策略

摘要

多语言说话人验证面临挑战，因为语言依赖的声学变异会使说话人的身份与语言特征纠缠在一起，从而降低跨语言的泛化能力。在多语言训练中，嵌入通常会将语言线索与说话人身份编码在一起，导致说话人形成语言特定的聚类。为了解决这个问题，我们提出了 L-Proto，一种语言感知的情节原型训练策略，构建语言一致的情节。通过在每个情节中从单一语言中抽样说话人，L-Proto 在训练过程中减少了语言驱动的变异，并鼓励嵌入更加直接地关注说话人身份。

实验结果

在 TidyVoice Challenge 基准测试上的实验表明，与传统的微调和随机情节抽样相比，L-Proto 在多个骨干架构上展示了持续的性能提升。

博主点评： L-Proto 的提出有效解决了多语言说话人验证中的语言依赖性问题，通过构建语言一致的训练情节，显著提升了系统的泛化能力。这一方法在实际应用中具有广泛的前景，尤其是在多语言环境下的语音识别和验证任务中。其创新的训练策略为相关领域提供了新的研究方向。