Noro: A Noise-Robust One-shot Voice Conversion System with Hidden Speaker Representation Capabilities

要約

ワンショット音声変換 (VC) は、元のソース音声の意味内容を保持しながら、ターゲットからの 1 つの参照音声だけを使用して、ソース話者の音声の音色をターゲット話者のそれに一致するように変更することを目的としています。
ワンショット VC の進歩にもかかわらず、多くの場合インターネットからソースされた参考スピーチに背景ノイズなどのさまざまな妨害が含まれる現実のシナリオでは、その有効性は低下します。
この問題に対処するために、ノイズに強いワンショット VC システムである Noro を導入します。
Noro は、デュアルブランチ参照エンコーディング モジュールやノイズに依存しないコントラスト スピーカー損失など、ノイズの多い参照音声を使用する VC 向けに調整された革新的なコンポーネントを備えています。
実験結果は、Noro がクリーン シナリオとノイズの多いシナリオの両方でベースライン システムを上回るパフォーマンスを示し、現実世界のアプリケーションに対するその有効性を強調しています。
さらに、ベースライン システムのリファレンス エンコーダをスピーカー エンコーダとして再利用することで、そのベースライン システムの隠れたスピーカー表現機能を調査します。
結果は、SUPERB 設定の下で話者表現に関していくつかの高度な自己教師あり学習モデルと競合することを示し、ワンショット VC タスクを通じて話者表現学習を進歩させる可能性を強調しています。

要約(オリジナル)

One-shot voice conversion (VC) aims to alter the timbre of speech from a source speaker to match that of a target speaker using just a single reference speech from the target, while preserving the semantic content of the original source speech. Despite advancements in one-shot VC, its effectiveness decreases in real-world scenarios where reference speeches, often sourced from the internet, contain various disturbances like background noise. To address this issue, we introduce Noro, a Noise Robust One-shot VC system. Noro features innovative components tailored for VC using noisy reference speeches, including a dual-branch reference encoding module and a noise-agnostic contrastive speaker loss. Experimental results demonstrate that Noro outperforms our baseline system in both clean and noisy scenarios, highlighting its efficacy for real-world applications. Additionally, we investigate the hidden speaker representation capabilities of our baseline system by repurposing its reference encoder as a speaker encoder. The results shows that it is competitive with several advanced self-supervised learning models for speaker representation under the SUPERB settings, highlighting the potential for advancing speaker representation learning through one-shot VC task.

arxiv情報

著者 Haorui He,Yuchen Song,Yuancheng Wang,Haoyang Li,Xueyao Zhang,Li Wang,Gongping Huang,Eng Siong Chng,Zhizheng Wu
発行日 2024-11-29 15:18:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク