摘要
唱歌风格是自然且富有表现力的歌声的重要组成部分。歌手通过唱歌风格传达歌曲的情感。为此,许多研究提出了控制唱歌风格的方法,以增强歌声的表现力。最近,VibE-SVC成功通过预测高频F0轮廓来控制颤音。
在本文中,我们介绍了一种新的唱歌声音转换框架——VibE-SVC2,旨在提升唱歌风格转换的性能和可控性。该模型提供了对两种唱歌风格的控制:音高风格和音色风格。
音高风格
为了处理我们之前工作中未解决的音高-能量纠缠问题,我们引入了一种新颖的能量风格转换器,以处理能量轮廓中剩余的风格信息。此外,我们提出了一种零样本音高风格转换器,能够模仿参考音频的音高风格。为了扩展模型的可控性,我们还提出了颤音速率缩放,这是一种独立控制颤音幅度的方法,而在VibE-SVC中是不可用的。
音色风格
在音色风格方面,我们扩展模型以处理多种发声风格。然而,处理特定风格(如声带疲劳)面临挑战,因为传统的F0提取常常由于其固有的亚谐特性而失败,从而降低转换质量。为了解决这个问题,我们提出了一种新颖的亚谐修正算法,以精细化F0轮廓,从而实现更自然的音色转换。
通过全面的客观和主观评估,我们证明了VibE-SVC2提供了对两种唱歌风格的细粒度、独立控制,超越了现有的方法。
博主点评: VibE-SVC2的提出是对唱歌风格转换领域的一次重大突破,尤其是在音高与能量的独立控制方面,极大地提升了系统的表现力和灵活性。新算法的引入也为处理复杂的发声风格提供了有效的解决方案,值得关注与深入研究。