AdaptVC: High Quality Voice Conversion with Adaptive Learning

要約

音声変換の目標は、元のコンテンツを保持しながら、ソーススピーカーの音声をリファレンススピーカーの音声のように変換することです。重要な課題は、ソースから言語コンテンツを、リファレンスから音声スタイルを分離して抽出することです。既存のアプローチは、この2つを分離するために様々な方法を活用しているが、特にゼロショットシナリオにおけるロバスト性のために、一般化にはまだ更なる注意が必要である。本論文では、自己教師付き音声特徴量をアダプタでチューニングすることで、コンテンツと話者特徴量の分離を成功させる。アダプタは、豊富な自己教師付き特徴からニュアンス特徴を動的に符号化するように訓練され、デコーダは、内容の損失を最小限に抑えながら、参照に正確に類似した音声を生成するためにそれらを融合する。さらに、クロスアテンションスピーカーコンディショニングを用いた条件付きフローマッチングデコーダを活用することで、合成品質と効率をさらに向上させる。ゼロショットシナリオにおける主観的・客観的評価により、提案手法が音声品質と参照音声との類似性において既存モデルを上回ることが実証された。

要約(オリジナル)

The goal of voice conversion is to transform the speech of a source speaker to sound like that of a reference speaker while preserving the original content. A key challenge is to extract disentangled linguistic content from the source and voice style from the reference. While existing approaches leverage various methods to isolate the two, a generalization still requires further attention, especially for robustness in zero-shot scenarios. In this paper, we achieve successful disentanglement of content and speaker features by tuning self-supervised speech features with adapters. The adapters are trained to dynamically encode nuanced features from rich self-supervised features, and the decoder fuses them to produce speech that accurately resembles the reference with minimal loss of content. Moreover, we leverage a conditional flow matching decoder with cross-attention speaker conditioning to further boost the synthesis quality and efficiency. Subjective and objective evaluations in a zero-shot scenario demonstrate that the proposed method outperforms existing models in speech quality and similarity to the reference speech.

arxiv情報

著者 Jaehun Kim,Ji-Hoon Kim,Yeunju Choi,Tan Dat Nguyen,Seongkyu Mun,Joon Son Chung
発行日 2025-01-03 04:37:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク