Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT

要約

私たちは、非母国語の方言、特に高低アクセント言語で学習した話者の音声を合成するタスクである、方言間テキスト読み上げ (CD-TTS) を研究します。
CD-TTS は、地域を越えて人々と自然に通信する音声エージェントを開発するために重要です。
我々は、このタスクを競争的に実行するための 3 つのサブモジュールで構成される新しい TTS モデルを提案します。
まずバックボーン TTS モデルをトレーニングして、参照エンコーダーによって音声から抽出された音素レベルのアクセント潜在変数 (ALV) を条件としたテキストから方言音声を合成します。
次に、新しい複数方言の音素レベル BERT を活用して、入力テキストからターゲット方言に合わせた ALV を予測する ALV 予測器をトレーニングします。
私たちは複数の方言 TTS 実験を実施し、従来の方言 TTS 手法から得られたベースラインと比較することでモデルの有効性を評価します。
結果は、私たちのモデルが CD-TTS における合成音声の方言の自然さを改善することを示しています。

要約(オリジナル)

We explore cross-dialect text-to-speech (CD-TTS), a task to synthesize learned speakers’ voices in non-native dialects, especially in pitch-accent languages. CD-TTS is important for developing voice agents that naturally communicate with people across regions. We present a novel TTS model comprising three sub-modules to perform competitively at this task. We first train a backbone TTS model to synthesize dialect speech from a text conditioned on phoneme-level accent latent variables (ALVs) extracted from speech by a reference encoder. Then, we train an ALV predictor to predict ALVs tailored to a target dialect from input text leveraging our novel multi-dialect phoneme-level BERT. We conduct multi-dialect TTS experiments and evaluate the effectiveness of our model by comparing it with a baseline derived from conventional dialect TTS methods. The results show that our model improves the dialectal naturalness of synthetic speech in CD-TTS.

arxiv情報

著者 Kazuki Yamauchi,Yuki Saito,Hiroshi Saruwatari
発行日 2024-09-11 13:40:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク