CoMoSVC: Consistency Model-based Singing Voice Conversion

要約

拡散に基づく歌声変換(SVC)手法は、目標音色に類似した自然な音声を生成し、顕著な性能を達成している。しかし、サンプリングの反復処理により推論速度が遅くなるため、高速化が重要となる。本論文では、高品質生成と高速サンプリングの両立を目指した一貫性モデルに基づくSVC手法CoMoSVCを提案する。まず、拡散に基づく教師モデルをSVCのために特別に設計し、さらに生徒モデルを自己無撞着性の下で抽出することで、1ステップのサンプリングを実現する。単一のNVIDIA GTX4090 GPU上での実験により、CoMoSVCは最先端の(SOTA)拡散ベースのSVCシステムよりも推論速度が大幅に速いにもかかわらず、主観的および客観的な測定基準の両方に基づいて、同等またはそれ以上の変換性能を達成していることが明らかになった。音声サンプルとコードはhttps://comosvc.github.io/。

要約(オリジナル)

The diffusion-based Singing Voice Conversion (SVC) methods have achieved remarkable performances, producing natural audios with high similarity to the target timbre. However, the iterative sampling process results in slow inference speed, and acceleration thus becomes crucial. In this paper, we propose CoMoSVC, a consistency model-based SVC method, which aims to achieve both high-quality generation and high-speed sampling. A diffusion-based teacher model is first specially designed for SVC, and a student model is further distilled under self-consistency properties to achieve one-step sampling. Experiments on a single NVIDIA GTX4090 GPU reveal that although CoMoSVC has a significantly faster inference speed than the state-of-the-art (SOTA) diffusion-based SVC system, it still achieves comparable or superior conversion performance based on both subjective and objective metrics. Audio samples and codes are available at https://comosvc.github.io/.

arxiv情報

著者 Yiwen Lu,Zhen Ye,Wei Xue,Xu Tan,Qifeng Liu,Yike Guo
発行日 2024-01-03 15:47:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク