要約
韻律には、単語の文字通りの意味を超えた豊富な情報が含まれており、音声の明瞭度にとって重要です。
現在のモデルは、フレージングとイントネーションの点でまだ不十分です。
複雑な構造を持つ長い文を合成するときに、区切りを見逃したり、区切りを間違えたりするだけでなく、不自然なイントネーションを生成します。
我々は、韻律のフレージングとイントネーションの側面を強化することを目的とした、フローマッチング (FM) バックボーンを備えた韻律認識テキスト音声合成 (TTS) モデルである ProsodyFM を提案します。
ProsodyFM では、2 つの重要なコンポーネントが導入されています。1 つは最初のフレーズ区切り位置をキャプチャするためのフレーズ ブレーク エンコーダー、その後にブレーク期間を柔軟に調整するためのデュレーション プレディクターです。
そして、イントネーション形状トークンのバンクを学習するターミナル イントネーション エンコーダーと、人間が知覚するイントネーション変化のより堅牢なモデリングを実現する新しいピッチ プロセッサーを組み合わせたものです。
ProsodyFM は、明示的な韻律ラベルを使用せずにトレーニングされていますが、広範囲の休憩時間とイントネーション パターンを明らかにできます。
実験結果は、ProsodyFM が韻律のフレージングとイントネーションの側面を効果的に改善し、それによって 4 つの最先端 (SOTA) モデルと比較して全体的な明瞭度を高めることができることを示しています。
配布外の実験では、この韻律の改善により、目に見えない複雑な文や話者に対して ProsodyFM にさらに優れた一般化性がもたらされることが示されています。
私たちのケーススタディは、フレージングとイントネーションに対する ProsodyFM の強力かつきめ細かい制御性を直感的に示しています。
要約(オリジナル)
Prosody contains rich information beyond the literal meaning of words, which is crucial for the intelligibility of speech. Current models still fall short in phrasing and intonation; they not only miss or misplace breaks when synthesizing long sentences with complex structures but also produce unnatural intonation. We propose ProsodyFM, a prosody-aware text-to-speech synthesis (TTS) model with a flow-matching (FM) backbone that aims to enhance the phrasing and intonation aspects of prosody. ProsodyFM introduces two key components: a Phrase Break Encoder to capture initial phrase break locations, followed by a Duration Predictor for the flexible adjustment of break durations; and a Terminal Intonation Encoder which learns a bank of intonation shape tokens combined with a novel Pitch Processor for more robust modeling of human-perceived intonation change. ProsodyFM is trained with no explicit prosodic labels and yet can uncover a broad spectrum of break durations and intonation patterns. Experimental results demonstrate that ProsodyFM can effectively improve the phrasing and intonation aspects of prosody, thereby enhancing the overall intelligibility compared to four state-of-the-art (SOTA) models. Out-of-distribution experiments show that this prosody improvement can further bring ProsodyFM superior generalizability for unseen complex sentences and speakers. Our case study intuitively illustrates the powerful and fine-grained controllability of ProsodyFM over phrasing and intonation.
arxiv情報
著者 | Xiangheng He,Junjie Chen,Zixing Zhang,Björn W. Schuller |
発行日 | 2024-12-19 15:21:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google