Using a Large Language Model to Control Speaking Style for Expressive TTS

要約

音声コミュニケーションを成功させるには、適切な韻律が不可欠です。
文脈に応じた単語の埋め込みは韻律の予測に役立つことが証明されていますが、妥当な韻律表現の中から選択することはできません。
リファレンスベースの TTS モデルは、リファレンス音声サンプルに基づいて音声生成を調整することで、この問題に対処しようとします。
これらのモデルは表現力豊かな音声を生成できますが、これには適切なリファレンスを見つける必要があります。
さまざまな言語関連のタスクを解決するために、十分に大きな生成言語モデルが使用されてきました。
私たちは、このようなモデルを使用して表現力豊かな TTS に適切な韻律を提案できるかどうかを検討します。
非表現コーパスで TTS モデルをトレーニングし、言語モデルにピッチ、エネルギー、持続時間の変更を提案するよう促します。
プロンプトはあらゆるタスクに合わせて設計でき、ターゲットの話し方や対話のコンテキストに基づいてモデルに提案を行うよう促します。
提案された方法は、ベースライン モデルの 31.0% と比較して、49.9% のケースで最も適切であると評価されています。

要約(オリジナル)

Appropriate prosody is critical for successful spoken communication. Contextual word embeddings are proven to be helpful in predicting prosody but do not allow for choosing between plausible prosodic renditions. Reference-based TTS models attempt to address this by conditioning speech generation on a reference speech sample. These models can generate expressive speech but this requires finding an appropriate reference. Sufficiently large generative language models have been used to solve various language-related tasks. We explore whether such models can be used to suggest appropriate prosody for expressive TTS. We train a TTS model on a non-expressive corpus and then prompt the language model to suggest changes to pitch, energy and duration. The prompt can be designed for any task and we prompt the model to make suggestions based on target speaking style and dialogue context. The proposed method is rated most appropriate in 49.9\% of cases compared to 31.0\% for a baseline model.

arxiv情報

著者 Atli Thor Sigurgeirsson,Simon King
発行日 2023-05-17 16:01:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク