在最近的研究中,基于像素的文本建模显示,将文本表示为图像使模型能够利用视觉线索进行语言理解。将文本与其视觉形式结合,可以使结构相似但不同 Unicode 编码的字符生成相似的嵌入,这在跨语言和零样本场景中具有优势。传统的基于文本的方法将每个字符独立处理,限制了对未见字符的泛化能力,并且在跨语言适应过程中需要扩展嵌入矩阵。
为此,我们提出了 Pixel-TTS,这是第一个视觉基础的语音合成框架。它将文本渲染为图像,并通过 2D 卷积层进行投影以生成嵌入。这一设计消除了在微调过程中嵌入矩阵扩展的需求,同时提高了对未见字符和正字法变体的鲁棒性。大量实验表明,Pixel-TTS 在强基线的对比中表现出色,具有更快的收敛速度和强大的零样本泛化能力。
博主点评: Pixel-TTS 的创新性在于将视觉信息引入语音合成,使得在面对未知字符时系统能够更好地适应。这种方法不仅提升了鲁棒性,还可能对多语言处理产生深远影响,值得关注和深入研究。