要約
最近の音声変換(VC)システムでの顕著な進歩にもかかわらず、ゼロショットシナリオのスピーカーの類似性の向上は依然として困難です。
この課題は、ゼロショット環境内の音声でスピーカーの特性を一般化および適応させることの難しさから生じます。これは、トレーニングプロセスと推論プロセスの間の不一致によってさらに複雑です。
これらの課題に対処するために、ボイスプロンプトでコンテキスト内学習を活用する堅牢なゼロショットVCモデルであるVoicePrompterを提案します。
VoicePrompterは、(1)音声コンポーネントを解き放つ因数分解方法と、(2)これらの因数分解された特徴と音声プロンプトの条件を条件とするDITベースの条件付きフローマッチング(CFM)デコーダーで構成されています。
さらに、(3)さまざまなスピーカー機能を組み合わせることにより、コンテキスト内の学習を強化するために潜在的な混合が使用されます。
このアプローチは、潜在的な表現にミックスアップを適用することにより、ゼロショットVCのスピーカーの類似性と自然性を改善します。
実験結果は、Speakerの類似性、音声明瞭度、音声品質の観点から、VoicePrompterが既存のゼロショットVCシステムを上回ることを示しています。
デモは\ url {https://hayeong0.github.io/voiceprompter-demo/}で入手できます。
要約(オリジナル)
Despite remarkable advancements in recent voice conversion (VC) systems, enhancing speaker similarity in zero-shot scenarios remains challenging. This challenge arises from the difficulty of generalizing and adapting speaker characteristics in speech within zero-shot environments, which is further complicated by mismatch between the training and inference processes. To address these challenges, we propose VoicePrompter, a robust zero-shot VC model that leverages in-context learning with voice prompts. VoicePrompter is composed of (1) a factorization method that disentangles speech components and (2) a DiT-based conditional flow matching (CFM) decoder that conditions on these factorized features and voice prompts. Additionally, (3) latent mixup is used to enhance in-context learning by combining various speaker features. This approach improves speaker similarity and naturalness in zero-shot VC by applying mixup to latent representations. Experimental results demonstrate that VoicePrompter outperforms existing zero-shot VC systems in terms of speaker similarity, speech intelligibility, and audio quality. Our demo is available at \url{https://hayeong0.github.io/VoicePrompter-demo/}.
arxiv情報
著者 | Ha-Yeong Choi,Jaehan Park |
発行日 | 2025-01-29 12:34:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google