NeFut Logo NeFut
EN 管理员登录

[AI学术] 颠覆性文本到语音合成:引导式离散流匹配的可修订CTMC推理栈

发布于:2026-06-16 22:00 最后更新:2026-06-17 01:38
#AI #Machine Learning #Neural

摘要

近年来,无需对齐的非自回归(NAR)文本到语音(TTS)模型将合成过程视为条件填充任务,避免了显式的持续时间预测器和外部对齐器。当语音通过神经编码器代币表示时,填充问题变为离散的,这使得离散流匹配(DFM)成为连续时间马尔可夫链(CTMC)框架的自然选择。然而,推理时如何控制稳定的低步条件填充仍未得到充分探索。

我们提出了一种名为“Mask, Sample, Revise”的推理时CTMC栈,用于无对齐的DFM-TTS。该栈结合了无预测器的引导,以增强文本条件;提示匹配的条件耦合,以将概率路径与声学提示对齐;以及SC-ReMask,一种调度约束的重标记机制,它引入了代币到掩码的转换,从而使早期去掩码决策可以被修订。这些组件无需后期微调,并在单个tau-leaping采样器中运行。控制消融实验表明,该栈在低NFE提示设置中提高了可懂性和鲁棒性,超越了无引导和仅引导的采样器,且步骤显著更多。

博主点评: 本文通过提出可修订的CTMC推理栈,展示了在TTS领域中引导式离散流匹配的潜力。创新的机制不仅提升了合成的稳定性和可懂性,也为未来的无对齐模型提供了新的思路,值得深入研究和应用。

原文链接: https://arxiv.org/abs/2606.13989

[h] 返回首页