Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech

要約

一時停止の挿入は、フレーズ区切り予測およびフレージングとも呼ばれ、TTS システムの重要な部分です。自然な長さの適切な一時停止は、合成音声のリズムと明瞭度を大幅に向上させるためです。
ただし、従来のフレージング モデルは、無音の一時停止を挿入するさまざまな話者のさまざまなスタイルを無視するため、複数話者の音声コーパスでトレーニングされたモデルのパフォーマンスが低下する可能性があります。
この目的のために、事前にトレーニングされた言語モデルに基づく、より強力な一時停止挿入フレームワークを提案します。
私たちのアプローチは、大規模なテキスト コーパスで事前にトレーニングされたトランスフォーマー (BERT) からの双方向エンコーダー表現を使用し、スピーカーの埋め込みを挿入して、さまざまなスピーカーの特性をキャプチャします。
また、より自然な複数話者の TTS のために、デュレーションを意識した一時停止の挿入も活用しています。
2 種類のモデルを開発し、評価します。
1 つ目は、呼吸休止 (RP) の位置予測に関する従来の言い回しモデルを改善します。つまり、句読点のない単語遷移での無音休止です。
これは、コンテキスト情報を考慮して話者条件付き RP 予測を実行し、話者情報の予測への影響を示すために使用されます。
2 番目のモデルは、音素ベースの TTS モデル用にさらに設計されており、期間を意識した一時停止の挿入を実行し、期間によって分類される RP と句読点による一時停止 (PIP) の両方を予測します。
評価結果は、モデルがポーズ挿入の精度と再現率、および合成音声のリズムを改善することを示しています。

要約(オリジナル)

Pause insertion, also known as phrase break prediction and phrasing, is an essential part of TTS systems because proper pauses with natural duration significantly enhance the rhythm and intelligibility of synthetic speech. However, conventional phrasing models ignore various speakers’ different styles of inserting silent pauses, which can degrade the performance of the model trained on a multi-speaker speech corpus. To this end, we propose more powerful pause insertion frameworks based on a pre-trained language model. Our approach uses bidirectional encoder representations from transformers (BERT) pre-trained on a large-scale text corpus, injecting speaker embedding to capture various speaker characteristics. We also leverage duration-aware pause insertion for more natural multi-speaker TTS. We develop and evaluate two types of models. The first improves conventional phrasing models on the position prediction of respiratory pauses (RPs), i.e., silent pauses at word transitions without punctuation. It performs speaker-conditioned RP prediction considering contextual information and is used to demonstrate the effect of speaker information on the prediction. The second model is further designed for phoneme-based TTS models and performs duration-aware pause insertion, predicting both RPs and punctuation-indicated pauses (PIPs) that are categorized by duration. The evaluation results show that our models improve the precision and recall of pause insertion and the rhythm of synthetic speech.

arxiv情報

著者 Dong Yang,Tomoki Koriyama,Yuki Saito,Takaaki Saeki,Detai Xin,Hiroshi Saruwatari
発行日 2023-02-27 10:40:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク