要約
同じ単語をさまざまな声で発声して多様な情報を伝えることができるため、音声は単なるテキストよりも多くの情報を伝えます。
音声の可変性を音声プロンプト (基準音声) に依存する従来のテキスト読み上げ (TTS) 方法と比較して、テキスト プロンプト (説明) を使用する方が、音声プロンプトが見つけにくいか、まったく存在しない可能性があるため、よりユーザー フレンドリーです。
テキスト プロンプトに基づく TTS アプローチは、2 つの課題に直面しています。1) 音声の変動に関するすべての詳細をテキスト プロンプトで説明できないという 1 対多の問題、2) ベンダーと
音声プロンプトのテキストを作成するには、データのラベル付けに多額のコストが必要です。
この研究では、テキスト プロンプトではキャプチャされない音声の変動情報を提供するバリエーション ネットワークと、大規模言語モデル (LLM) を利用して高品質のテキスト プロンプトを作成するプロンプト生成パイプラインを使用して、これらの課題に対処する PromptTTS 2 を導入します。
具体的には、バリエーション ネットワークは、テキスト プロンプト表現に基づいて、基準音声 (音声に関する完全な情報を含む) から抽出された表現を予測します。
プロンプト生成パイプラインでは、音声から音声属性 (性別、速度など) を認識する音声理解モデルと、認識結果に基づいてテキスト プロンプトを定式化する大規模言語モデルを使用して音声のテキスト プロンプトを生成します。
大規模 (44,000 時間) の音声データセットでの実験では、以前の研究と比較して、PromptTTS 2 がテキスト プロンプトとより一貫した音声を生成し、多様な音声変動のサンプリングをサポートしているため、ユーザーに音声生成に関するより多くの選択肢を提供していることが実証されました。
さらに、プロンプト生成パイプラインは高品質のプロンプトを生成し、多額のラベル付けコストを削減します。
PromptTTS 2 のデモ ページはオンライン\脚注{https://speechresearch.github.io/prompttts2} で利用できます。
要約(オリジナル)
Speech conveys more information than just text, as the same word can be uttered in various voices to convey diverse information. Compared to traditional text-to-speech (TTS) methods relying on speech prompts (reference speech) for voice variability, using text prompts (descriptions) is more user-friendly since speech prompts can be hard to find or may not exist at all. TTS approaches based on the text prompt face two challenges: 1) the one-to-many problem, where not all details about voice variability can be described in the text prompt, and 2) the limited availability of text prompt datasets, where vendors and large cost of data labeling are required to write text prompt for speech. In this work, we introduce PromptTTS 2 to address these challenges with a variation network to provide variability information of voice not captured by text prompts, and a prompt generation pipeline to utilize the large language models (LLM) to compose high quality text prompts. Specifically, the variation network predicts the representation extracted from the reference speech (which contains full information about voice) based on the text prompt representation. For the prompt generation pipeline, it generates text prompts for speech with a speech understanding model to recognize voice attributes (e.g., gender, speed) from speech and a large language model to formulate text prompt based on the recognition results. Experiments on a large-scale (44K hours) speech dataset demonstrate that compared to the previous works, PromptTTS 2 generates voices more consistent with text prompts and supports the sampling of diverse voice variability, thereby offering users more choices on voice generation. Additionally, the prompt generation pipeline produces high-quality prompts, eliminating the large labeling cost. The demo page of PromptTTS 2 is available online\footnote{https://speechresearch.github.io/prompttts2}.
arxiv情報
| 著者 | Yichong Leng,Zhifang Guo,Kai Shen,Xu Tan,Zeqian Ju,Yanqing Liu,Yufei Liu,Dongchao Yang,Leying Zhang,Kaitao Song,Lei He,Xiang-Yang Li,Sheng Zhao,Tao Qin,Jiang Bian | 
| 発行日 | 2023-09-05 14:45:27+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
