在自动语音识别(ASR)技术快速发展的背景下,处理不流畅的语音仍然是一个重大挑战。现有的最先进系统往往优化为忽略不流畅性,导致信息丢失和错误生成。尽管之前的研究集中于逐字转录和不流畅性标记的整合,但在有限数据集上调整模型可能导致通用领域知识的灾难性遗忘。为了填补这一空白,我们采用了带有显式不流畅性标记的持续学习(CL)方法。
我们首先将这些标记引入一个预训练的ASR模型,以建立稳定的标记机制,然后在具有不同不流畅性分布的附加数据集上继续训练。通过对训练过程中模型动态的详细分析,我们识别出标记学习与ASR性能之间的权衡,以及在CL方法中共享的一致性交叉注意力头机制。
博主点评: 该研究有效地解决了不流畅语音识别中的信息损失问题,提供了一种创新的持续学习框架。通过引入不流畅性标记,模型不仅提升了识别准确率,还保持了对通用知识的敏感性,展现了持续学习在实际应用中的潜力。