[AI学术] 打破语言障碍：持续学习助力流畅性识别的自动语音识别技术

在自动语音识别（ASR）技术快速发展的背景下，处理不流畅的语音仍然是一个重大挑战。现有的最先进系统往往优化为忽略不流畅性，导致信息丢失和错误生成。尽管之前的研究集中于逐字转录和不流畅性标记的整合，但在有限数据集上调整模型可能导致通用领域知识的灾难性遗忘。为了填补这一空白，我们采用了带有显式不流畅性标记的持续学习（CL）方法。

我们首先将这些标记引入一个预训练的ASR模型，以建立稳定的标记机制，然后在具有不同不流畅性分布的附加数据集上继续训练。通过对训练过程中模型动态的详细分析，我们识别出标记学习与ASR性能之间的权衡，以及在CL方法中共享的一致性交叉注意力头机制。

博主点评： 该研究有效地解决了不流畅语音识别中的信息损失问题，提供了一种创新的持续学习框架。通过引入不流畅性标记，模型不仅提升了识别准确率，还保持了对通用知识的敏感性，展现了持续学习在实际应用中的潜力。