[AI学术] 颠覆性文本到语音合成：引导式离散流匹配的可修订CTMC推理栈

摘要

近年来，无需对齐的非自回归（NAR）文本到语音（TTS）模型将合成过程视为条件填充任务，避免了显式的持续时间预测器和外部对齐器。当语音通过神经编码器代币表示时，填充问题变为离散的，这使得离散流匹配（DFM）成为连续时间马尔可夫链（CTMC）框架的自然选择。然而，推理时如何控制稳定的低步条件填充仍未得到充分探索。

我们提出了一种名为“Mask, Sample, Revise”的推理时CTMC栈，用于无对齐的DFM-TTS。该栈结合了无预测器的引导，以增强文本条件；提示匹配的条件耦合，以将概率路径与声学提示对齐；以及SC-ReMask，一种调度约束的重标记机制，它引入了代币到掩码的转换，从而使早期去掩码决策可以被修订。这些组件无需后期微调，并在单个tau-leaping采样器中运行。控制消融实验表明，该栈在低NFE提示设置中提高了可懂性和鲁棒性，超越了无引导和仅引导的采样器，且步骤显著更多。

博主点评： 本文通过提出可修订的CTMC推理栈，展示了在TTS领域中引导式离散流匹配的潜力。创新的机制不仅提升了合成的稳定性和可懂性，也为未来的无对齐模型提供了新的思路，值得深入研究和应用。