要約
テキスト音声合成 (TTS) 合成では、韻律構造予測 (PSP) が自然でわかりやすい音声を生成する上で重要な役割を果たします。
発話間の言語情報はターゲット発話の音声解釈に影響を与える可能性がありますが、PSP に関するこれまでの研究は主に現在の発話の発話内言語情報のみを利用することに焦点を当てていました。
この研究は、発話間の言語情報を使用して PSP のパフォーマンスを向上させることを提案しています。
発話間および発話内の言語情報を含むマルチレベルの文脈情報は、入力テキストの文字レベル、発話レベル、談話レベルから階層型エンコーダによって抽出されます。
次に、マルチタスク学習 (MTL) デコーダが、マルチレベルのコンテキスト情報から韻律境界を予測します。
2 つのデータセットの客観的な評価結果は、私たちの方法が韻律単語 (PW)、韻律フレーズ (PPH)、およびイントネーション フレーズ (IPH) の予測においてより良い F1 スコアを達成することを示しています。
これは、PSP でマルチレベルのコンテキスト情報を使用することの有効性を示しています。
主観的な好みのテストでも、合成音声の自然さが向上していることが示されています。
要約(オリジナル)
For text-to-speech (TTS) synthesis, prosodic structure prediction (PSP) plays an important role in producing natural and intelligible speech. Although inter-utterance linguistic information can influence the speech interpretation of the target utterance, previous works on PSP mainly focus on utilizing intrautterance linguistic information of the current utterance only. This work proposes to use inter-utterance linguistic information to improve the performance of PSP. Multi-level contextual information, which includes both inter-utterance and intrautterance linguistic information, is extracted by a hierarchical encoder from character level, utterance level and discourse level of the input text. Then a multi-task learning (MTL) decoder predicts prosodic boundaries from multi-level contextual information. Objective evaluation results on two datasets show that our method achieves better F1 scores in predicting prosodic word (PW), prosodic phrase (PPH) and intonational phrase (IPH). It demonstrates the effectiveness of using multi-level contextual information for PSP. Subjective preference tests also indicate the naturalness of synthesized speeches are improved.
arxiv情報
著者 | Jie Chen,Changhe Song,Deyi Tuo,Xixin Wu,Shiyin Kang,Zhiyong Wu,Helen Meng |
発行日 | 2023-08-31 09:19:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google