要約
この研究では、上流の音声変換 (VC) モデルと下流の Text-To-Speech (TTS) モデルを含む、言語間音声合成のフレームワークを紹介します。
提案された枠組みは 4 つの段階から構成されます。
最初の 2 つの段階では、VC モデルを使用して、ターゲット ロケールでの発話をターゲット スピーカーの音声に変換します。
第 3 段階では、変換されたデータが、ターゲット言語での録音からの言語特徴および継続時間と結合され、単一話者の音響モデルのトレーニングに使用されます。
最後の段階では、ロケールに依存しないボコーダーのトレーニングが必要になります。
私たちの評価では、提案されたパラダイムが、大規模な多言語 TTS モデルのトレーニングに基づく最先端のアプローチよりも優れていることが示されています。
さらに、私たちの実験は、さまざまなモデル アーキテクチャ、言語、話者、データ量に対するアプローチの堅牢性を実証しています。
さらに、当社のソリューションは、リソースが少ない環境で特に有益です。
要約(オリジナル)
In this work, we introduce a framework for cross-lingual speech synthesis, which involves an upstream Voice Conversion (VC) model and a downstream Text-To-Speech (TTS) model. The proposed framework consists of 4 stages. In the first two stages, we use a VC model to convert utterances in the target locale to the voice of the target speaker. In the third stage, the converted data is combined with the linguistic features and durations from recordings in the target language, which are then used to train a single-speaker acoustic model. Finally, the last stage entails the training of a locale-independent vocoder. Our evaluations show that the proposed paradigm outperforms state-of-the-art approaches which are based on training a large multilingual TTS model. In addition, our experiments demonstrate the robustness of our approach with different model architectures, languages, speakers and amounts of data. Moreover, our solution is especially beneficial in low-resource settings.
arxiv情報
著者 | Dariusz Piotrowski,Renard Korzeniowski,Alessio Falai,Sebastian Cygert,Kamil Pokora,Georgi Tinchev,Ziyao Zhang,Kayoko Yanagisawa |
発行日 | 2023-09-15 09:03:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google