要約
音声変換の目標は、元の内容を保持しながら、ソース話者の音声を基準話者の音声と同じように変換することです。
重要な課題は、ソースから解きほぐされた言語コンテンツを抽出し、リファレンスから音声スタイルを抽出することです。
既存のアプローチではさまざまな方法を活用して 2 つを分離していますが、一般化には、特にゼロショット シナリオでの堅牢性についてさらなる注意が必要です。
この論文では、アダプターを使用して自己教師あり音声特徴を調整することにより、コンテンツと話者の特徴のもつれの解消に成功しました。
アダプターは、豊富な自己教師付き特徴から微妙な特徴を動的にエンコードするようにトレーニングされ、デコーダーはそれらを融合して、コンテンツの損失を最小限に抑えながらリファレンスに正確に似た音声を生成します。
さらに、クロスアテンションスピーカーコンディショニングを備えた条件付きフローマッチングデコーダーを活用して、合成の品質と効率をさらに高めます。
ゼロショットシナリオでの主観的評価と客観的評価により、提案された方法が音声品質と参照音声との類似性において既存のモデルよりも優れていることが実証されました。
要約(オリジナル)
The goal of voice conversion is to transform the speech of a source speaker to sound like that of a reference speaker while preserving the original content. A key challenge is to extract disentangled linguistic content from the source and voice style from the reference. While existing approaches leverage various methods to isolate the two, a generalization still requires further attention, especially for robustness in zero-shot scenarios. In this paper, we achieve successful disentanglement of content and speaker features by tuning self-supervised speech features with adapters. The adapters are trained to dynamically encode nuanced features from rich self-supervised features, and the decoder fuses them to produce speech that accurately resembles the reference with minimal loss of content. Moreover, we leverage a conditional flow matching decoder with cross-attention speaker conditioning to further boost the synthesis quality and efficiency. Subjective and objective evaluations in a zero-shot scenario demonstrate that the proposed method outperforms existing models in speech quality and similarity to the reference speech.
arxiv情報
著者 | Jaehun Kim,Ji-Hoon Kim,Yeunju Choi,Tan Dat Nguyen,Seongkyu Mun,Joon Son Chung |
発行日 | 2025-01-14 11:36:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google