NeFut Logo NeFut
EN 管理员登录

[AI学术] L-Proto:语言感知的多语言说话人验证新策略

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:49
#AI #Machine Learning #Neural

摘要

多语言说话人验证面临挑战,因为语言依赖的声学变异会使说话人的身份与语言特征纠缠在一起,从而降低跨语言的泛化能力。在多语言训练中,嵌入通常会将语言线索与说话人身份编码在一起,导致说话人形成语言特定的聚类。为了解决这个问题,我们提出了 L-Proto,一种语言感知的情节原型训练策略,构建语言一致的情节。通过在每个情节中从单一语言中抽样说话人,L-Proto 在训练过程中减少了语言驱动的变异,并鼓励嵌入更加直接地关注说话人身份。

实验结果

在 TidyVoice Challenge 基准测试上的实验表明,与传统的微调和随机情节抽样相比,L-Proto 在多个骨干架构上展示了持续的性能提升。

博主点评: L-Proto 的提出有效解决了多语言说话人验证中的语言依赖性问题,通过构建语言一致的训练情节,显著提升了系统的泛化能力。这一方法在实际应用中具有广泛的前景,尤其是在多语言环境下的语音识别和验证任务中。其创新的训练策略为相关领域提供了新的研究方向。

原文链接: https://arxiv.org/abs/2606.17416

[h] 返回首页