Multi-modal Adversarial Training for Zero-Shot Voice Cloning

要約

与えられたテキストから音声を再構築するようにトレーニングされたテキスト読み上げ (TTS) モデルは、データセットの平均的な特性に近い予測をする傾向があり、人間の音声を自然に聞こえるようにするバリエーションをモデル化できません。
この問題は、話し方のばらつきが大きいトレーニング データを必要とするタスクであるゼロショット音声クローン作成ではさらに大きくなります。
私たちは、実際の音声特徴と生成された音声特徴を条件付きで区別するための Transformer エンコーダ/デコーダ アーキテクチャを提案することにより、Generative Advsarial Networks (GAN) を使用した最近の研究を構築しています。
弁別器は、TTS モデルの音響特性と韻律特性の両方を改善するトレーニング パイプラインで使用されます。
ゼロショット音声クローン作成タスクのために、FastSpeech2 音響モデルに適用し、大規模なマルチスピーカー データセットである Libriheavy でトレーニングすることにより、新しい敵対的トレーニング技術を紹介します。
私たちのモデルは、音声品質と話者の類似性の点でベースラインを超える改善を達成しました。
当社のシステムの音声サンプルはオンラインで入手できます。

要約(オリジナル)

A text-to-speech (TTS) model trained to reconstruct speech given text tends towards predictions that are close to the average characteristics of a dataset, failing to model the variations that make human speech sound natural. This problem is magnified for zero-shot voice cloning, a task that requires training data with high variance in speaking styles. We build off of recent works which have used Generative Advsarial Networks (GAN) by proposing a Transformer encoder-decoder architecture to conditionally discriminates between real and generated speech features. The discriminator is used in a training pipeline that improves both the acoustic and prosodic features of a TTS model. We introduce our novel adversarial training technique by applying it to a FastSpeech2 acoustic model and training on Libriheavy, a large multi-speaker dataset, for the task of zero-shot voice cloning. Our model achieves improvements over the baseline in terms of speech quality and speaker similarity. Audio examples from our system are available online.

arxiv情報

著者 John Janiczek,Dading Chong,Dongyang Dai,Arlo Faria,Chao Wang,Tao Wang,Yuzong Liu
発行日 2024-08-28 16:30:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク