Expressive TTS Driven by Natural Language Prompts Using Few Human Annotations

要約

Expressive Text-to-Speech (TTS) は、人間のような口調、雰囲気、さらには芸術的な属性を備えた音声を合成することを目的としています。
表現力豊かな TTS の最近の進歩により、ユーザーは自然言語プロンプトを通じて合成スタイルを直接制御できるようになりました。
ただし、これらの方法では、多くの場合、大量のスタイル注釈付きデータを使用した過剰なトレーニングが必要となり、取得が困難になる場合があります。
さらに、注釈のスタイルが固定されているため、適応性が制限される場合があります。
この研究では、人間による注釈を最小限に抑えた制御可能な表現力豊かな TTS モデルである FreeStyleTTS (FS-TTS) を紹介します。
私たちのアプローチでは、大規模言語モデル (LLM) を利用して、表現豊かな TTS をスタイル検索タスクに変換します。
LLM は、外部スタイル プロンプト (生の入力テキストまたは自然言語スタイルの説明) に基づいて、注釈付き発話から最も一致するスタイル参照を選択します。
選択されたリファレンスは、TTS パイプラインをガイドして、意図したスタイルで音声を合成します。
この革新的なアプローチにより、人間の作業負荷を最小限に抑えながら、柔軟で多用途かつ正確なスタイル制御が可能になります。
北京語ストーリーテリング コーパスの実験では、入力テキストまたはユーザー定義の説明から目的のスタイルを取得する LLM の意味推論機能を活用する FS-TTS の熟練度を示しています。
これにより、指定されたスタイルに厳密に一致した合成音声が生成されます。

要約(オリジナル)

Expressive text-to-speech (TTS) aims to synthesize speeches with human-like tones, moods, or even artistic attributes. Recent advancements in expressive TTS empower users with the ability to directly control synthesis style through natural language prompts. However, these methods often require excessive training with a significant amount of style-annotated data, which can be challenging to acquire. Moreover, they may have limited adaptability due to fixed style annotations. In this work, we present FreeStyleTTS (FS-TTS), a controllable expressive TTS model with minimal human annotations. Our approach utilizes a large language model (LLM) to transform expressive TTS into a style retrieval task. The LLM selects the best-matching style references from annotated utterances based on external style prompts, which can be raw input text or natural language style descriptions. The selected reference guides the TTS pipeline to synthesize speeches with the intended style. This innovative approach provides flexible, versatile, and precise style control with minimal human workload. Experiments on a Mandarin storytelling corpus demonstrate FS-TTS’s proficiency in leveraging LLM’s semantic inference ability to retrieve desired styles from either input text or user-defined descriptions. This results in synthetic speeches that are closely aligned with the specified styles.

arxiv情報

著者 Hanglei Zhang,Yiwei Guo,Sen Liu,Xie Chen,Kai Yu
発行日 2023-11-02 14:20:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS パーマリンク