[AI学术] Pixel-TTS: 基于图像的文本渲染，提升语音合成的鲁棒性

在最近的研究中，基于像素的文本建模显示，将文本表示为图像使模型能够利用视觉线索进行语言理解。将文本与其视觉形式结合，可以使结构相似但不同 Unicode 编码的字符生成相似的嵌入，这在跨语言和零样本场景中具有优势。传统的基于文本的方法将每个字符独立处理，限制了对未见字符的泛化能力，并且在跨语言适应过程中需要扩展嵌入矩阵。

为此，我们提出了 Pixel-TTS，这是第一个视觉基础的语音合成框架。它将文本渲染为图像，并通过 2D 卷积层进行投影以生成嵌入。这一设计消除了在微调过程中嵌入矩阵扩展的需求，同时提高了对未见字符和正字法变体的鲁棒性。大量实验表明，Pixel-TTS 在强基线的对比中表现出色，具有更快的收敛速度和强大的零样本泛化能力。

博主点评： Pixel-TTS 的创新性在于将视觉信息引入语音合成，使得在面对未知字符时系统能够更好地适应。这种方法不仅提升了鲁棒性，还可能对多语言处理产生深远影响，值得关注和深入研究。