要約
音声合成においてきめ細かい韻律制御を実現するための現在の戦略には、追加のスタイル埋め込みを抽出するか、より複雑なアーキテクチャを採用することが必要です。
事前トレーニング済みの Text-to-Speech (TTS) モデルのゼロショット アプリケーションを可能にするために、推論プロセスを直接変更することで FastSpeech2 ベースのモデルで明示的な韻律予測を活用する PRESENT (スタイル埋め込みや新しいトレーニングを使用しない韻律編集) を紹介します。
英語の LJSpeech データのみでトレーニングされた JETS モデルを使用して、テキストから韻律へのフレームワークをゼロショット言語伝達に適用します。
ドイツ語、ハンガリー語、スペイン語でそれぞれ 12.8%、18.7%、5.9% の文字誤り率 (CER) が得られ、3 つの言語すべてで以前の最先端の CER を 2 倍以上上回りました。
さらに、この分野では初めて、サブ音素レベルの制御が可能です。
その有効性を評価するために、PRESENT が質問の韻律を改善し、それを使用して母音のピッチが副音素レベルで変化する声調言語である北京語を生成できることを示します。
JETS モデルでは、漢字 CER が 25.3%、ピンイン CER が 13.0% を達成しました。
すべてのコードとオーディオ サンプルはオンラインで入手できます。
要約(オリジナル)
Current strategies for achieving fine-grained prosody control in speech synthesis entail extracting additional style embeddings or adopting more complex architectures. To enable zero-shot application of pretrained text-to-speech (TTS) models, we present PRESENT (PRosody Editing without Style Embeddings or New Training), which exploits explicit prosody prediction in FastSpeech2-based models by modifying the inference process directly. We apply our text-to-prosody framework to zero-shot language transfer using a JETS model exclusively trained on English LJSpeech data. We obtain character error rates (CER) of 12.8%, 18.7% and 5.9% for German, Hungarian and Spanish respectively, beating the previous state-of-the-art CER by over 2x for all three languages. Furthermore, we allow subphoneme-level control, a first in this field. To evaluate its effectiveness, we show that PRESENT can improve the prosody of questions, and use it to generate Mandarin, a tonal language where vowel pitch varies at subphoneme level. We attain 25.3% hanzi CER and 13.0% pinyin CER with the JETS model. All our code and audio samples are available online.
arxiv情報
著者 | Perry Lam,Huayun Zhang,Nancy F. Chen,Berrak Sisman,Dorien Herremans |
発行日 | 2024-08-13 11:39:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google