[AI学术] 突破性的VibE-SVC2：独立控制唱歌风格的全新框架

摘要

唱歌风格是自然且富有表现力的歌声的重要组成部分。歌手通过唱歌风格传达歌曲的情感。为此，许多研究提出了控制唱歌风格的方法，以增强歌声的表现力。最近，VibE-SVC成功通过预测高频F0轮廓来控制颤音。

在本文中，我们介绍了一种新的唱歌声音转换框架——VibE-SVC2，旨在提升唱歌风格转换的性能和可控性。该模型提供了对两种唱歌风格的控制：音高风格和音色风格。

音高风格

为了处理我们之前工作中未解决的音高-能量纠缠问题，我们引入了一种新颖的能量风格转换器，以处理能量轮廓中剩余的风格信息。此外，我们提出了一种零样本音高风格转换器，能够模仿参考音频的音高风格。为了扩展模型的可控性，我们还提出了颤音速率缩放，这是一种独立控制颤音幅度的方法，而在VibE-SVC中是不可用的。

音色风格

在音色风格方面，我们扩展模型以处理多种发声风格。然而，处理特定风格（如声带疲劳）面临挑战，因为传统的F0提取常常由于其固有的亚谐特性而失败，从而降低转换质量。为了解决这个问题，我们提出了一种新颖的亚谐修正算法，以精细化F0轮廓，从而实现更自然的音色转换。

通过全面的客观和主观评估，我们证明了VibE-SVC2提供了对两种唱歌风格的细粒度、独立控制，超越了现有的方法。

博主点评： VibE-SVC2的提出是对唱歌风格转换领域的一次重大突破，尤其是在音高与能量的独立控制方面，极大地提升了系统的表现力和灵活性。新算法的引入也为处理复杂的发声风格提供了有效的解决方案，值得关注与深入研究。