Robust One-Shot Singing Voice Conversion

要約

深層生成モデルの最近の進歩により、音声領域での音声変換の品質が向上しました。
しかし、ピッチ、音量、発音などの音楽表現が多様化しているため、未見の歌手の高品質な歌声変換 (SVC) は依然として困難です。
さらに、歌声はリバーブや伴奏音楽とともに録音されることが多く、SVC はさらに困難になります。
本研究では、このような歪んだ歌声に対しても、any-to-any SVC を堅牢に実行する堅牢なワンショット SVC (ROSVC) を紹介します。
この目的を達成するために、我々はまず、敵対的生成ネットワークに基づくワンショット SVC モデルを提案します。このモデルは、部分領域コンディショニングを介して目に見えない歌手に一般化し、ピッチ分布マッチングと AdaIN スキップ コンディショニングを介してターゲット ピッチを正確に回復することを学習します。
次に、Robustify と呼ばれる 2 段階のトレーニング方法を提案します。この方法では、第 1 段階でクリーン データ上でワンショット SVC モデルをトレーニングして高品質の変換を保証し、第 2 段階でモデルのエンコーダーに拡張モジュールを導入して変換を強化します。
歪んだ歌声から特徴を抽出します。
声の品質とピッチ再構成の精度をさらに向上させるために、最後に歌声ニューラルボコーダーの階層的拡散モデルを提案します。
実験結果は、提案された方法が、見える歌手と見えない歌手の両方に対して最先端のワンショット SVC ベースラインを上回り、歪みに対する堅牢性が大幅に向上することを示しています。

要約(オリジナル)

Recent progress in deep generative models has improved the quality of voice conversion in the speech domain. However, high-quality singing voice conversion (SVC) of unseen singers remains challenging due to the wider variety of musical expressions in pitch, loudness, and pronunciation. Moreover, singing voices are often recorded with reverb and accompaniment music, which make SVC even more challenging. In this work, we present a robust one-shot SVC (ROSVC) that performs any-to-any SVC robustly even on such distorted singing voices. To this end, we first propose a one-shot SVC model based on generative adversarial networks that generalizes to unseen singers via partial domain conditioning and learns to accurately recover the target pitch via pitch distribution matching and AdaIN-skip conditioning. We then propose a two-stage training method called Robustify that train the one-shot SVC model in the first stage on clean data to ensure high-quality conversion, and introduces enhancement modules to the encoders of the model in the second stage to enhance the feature extraction from distorted singing voices. To further improve the voice quality and pitch reconstruction accuracy, we finally propose a hierarchical diffusion model for singing voice neural vocoders. Experimental results show that the proposed method outperforms state-of-the-art one-shot SVC baselines for both seen and unseen singers and significantly improves the robustness against distortions.

arxiv情報

著者 Naoya Takahashi,Mayank Kumar Singh,Yuki Mitsufuji
発行日 2023-10-06 16:18:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク