SelfVC: Voice Conversion With Iterative Refinement using Self Transformations

要約

我々は、自己合成された例を用いて音声変換モデルを反復的に改善する学習戦略であるSelfVCを提案する。音声変換に関するこれまでの研究は、音声を、話者の特徴と言語的内容を別々に符号化する、明示的に分離された表現に因数分解することに焦点を当てている。しかし、タスク固有の損失項を用いて、そのような属性を捕捉するために音声表現を分離することは、情報損失につながる可能性がある。本研究では、損失項を用いて属性を明示的に分離する代わりに、自己教師あり学習(SSL)と話者検証モデルから得られるもつれた音声表現に制御可能な音声変換モデルを学習させる枠組みを提示する。まず、合成モデルの予測サブモジュールを学習するために、音声信号とSSL表現から韻律情報を導出する技術を開発する。次に、音声変換のための合成モデルを反復的に改善するための学習戦略を提案する。訓練中にこのような自己合成例を組み込むことで、ヒューリスティックに摂動された入力のみで訓練されたベースライン音声変換モデルと比較して、生成された音声の話者類似度が向上することを実証する。我々のフレームワークはテキストなしで訓練され、合成音声の自然さ、話者の類似性、明瞭度を評価するメトリクスにおいて、ゼロショット音声変換において最先端の結果を達成した。

要約(オリジナル)

We propose SelfVC, a training strategy to iteratively improve a voice conversion model with self-synthesized examples. Previous efforts on voice conversion focus on factorizing speech into explicitly disentangled representations that separately encode speaker characteristics and linguistic content. However, disentangling speech representations to capture such attributes using task-specific loss terms can lead to information loss. In this work, instead of explicitly disentangling attributes with loss terms, we present a framework to train a controllable voice conversion model on entangled speech representations derived from self-supervised learning (SSL) and speaker verification models. First, we develop techniques to derive prosodic information from the audio signal and SSL representations to train predictive submodules in the synthesis model. Next, we propose a training strategy to iteratively improve the synthesis model for voice conversion, by creating a challenging training objective using self-synthesized examples. We demonstrate that incorporating such self-synthesized examples during training improves the speaker similarity of generated speech as compared to a baseline voice conversion model trained solely on heuristically perturbed inputs. Our framework is trained without any text and achieves state-of-the-art results in zero-shot voice conversion on metrics evaluating naturalness, speaker similarity, and intelligibility of synthesized audio.

arxiv情報

著者 Paarth Neekhara,Shehzeen Hussain,Rafael Valle,Boris Ginsburg,Rishabh Ranjan,Shlomo Dubnov,Farinaz Koushanfar,Julian McAuley
発行日 2024-05-03 16:45:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク