An investigation of phrase break prediction in an End-to-End TTS system

要約

目的: この研究では、エンドツーエンドの Text-to-Speech (TTS) システムにおける聞き手の理解を強化するための、外部フレーズ区切り予測モデルの使用について調査します。
方法: これらのモデルの有効性は、主観的なテストでリスナーの好みに基づいて評価されます。
2 つのアプローチが検討されます: (1) スクラッチからトレーニングされたタスク固有の埋め込みを備えた双方向 LSTM モデル、および (2) フレーズ区切り予測に基づいて微調整された事前トレーニングされた BERT モデル。
どちらのモデルも、テキスト内のフレーズ区切りの位置を予測するために、複数話者の英語コーパスでトレーニングされています。
使用されるエンドツーエンド TTS システムは、メル スペクトログラム予測用の Dynamic Convolutional Attendant を備えた Tacotron2 モデルと波形生成用の WaveRNN ボコーダーで構成されています。
結果: リスニング テストでは、予測されたフレーズ区切りを使用して合成されたテキストが、予測されたフレーズ区切りなしで合成されたテキストよりも明らかに好まれることが示されました。
結論: これらの結果は、リスナーの理解を強化するために、エンドツーエンド TTS 内に外部フレージング モデルを組み込むことの価値を裏付けています。

要約(オリジナル)

Purpose: This work explores the use of external phrase break prediction models to enhance listener comprehension in End-to-End Text-to-Speech (TTS) systems. Methods: The effectiveness of these models is evaluated based on listener preferences in subjective tests. Two approaches are explored: (1) a bidirectional LSTM model with task-specific embeddings trained from scratch, and (2) a pre-trained BERT model fine-tuned on phrase break prediction. Both models are trained on a multi-speaker English corpus to predict phrase break locations in text. The End-to-End TTS system used comprises a Tacotron2 model with Dynamic Convolutional Attention for mel spectrogram prediction and a WaveRNN vocoder for waveform generation. Results: The listening tests show a clear preference for text synthesized with predicted phrase breaks over text synthesized without them. Conclusion: These results confirm the value of incorporating external phrasing models within End-to-End TTS to enhance listener comprehension.

arxiv情報

著者 Anandaswarup Vadapalli
発行日 2025-01-01 05:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク