ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph Reading

要約

最先端の Text-to-Speech システムは、文レベルで非常に高品質の自然な音声を生成できますが、段落や長文の読み上げ用の音声生成では依然として大きな課題に直面しています。
このような欠陥は、i) 文をまたがる文脈情報の無知、および ii) 長い形式の合成における高い計算コストとメモリ コストが原因です。
これらの問題に対処するために、この研究では軽量で効果的な TTS システムである ContextSpeech を開発しました。
具体的には、まず、グローバルなテキストと音声のコンテキストを文のエンコーディングに組み込むためのメモリ キャッシュの繰り返しメカニズムを設計します。
次に、階層構造のテキスト セマンティクスを構築して、グローバル コンテキスト強化の範囲を広げます。
さらに、線形化された自己注意を統合して、モデルの効率を向上させます。
実験の結果、ContextSpeech は、競合モデルの効率性により、段落読み上げにおける音声品質と韻律表現力を大幅に向上させることが示されました。
音声サンプルは https://contextspeech.github.io/demo/ から入手できます。

要約(オリジナル)

While state-of-the-art Text-to-Speech systems can generate natural speech of very high quality at sentence level, they still meet great challenges in speech generation for paragraph / long-form reading. Such deficiencies are due to i) ignorance of cross-sentence contextual information, and ii) high computation and memory cost for long-form synthesis. To address these issues, this work develops a lightweight yet effective TTS system, ContextSpeech. Specifically, we first design a memory-cached recurrence mechanism to incorporate global text and speech context into sentence encoding. Then we construct hierarchically-structured textual semantics to broaden the scope for global context enhancement. Additionally, we integrate linearized self-attention to improve model efficiency. Experiments show that ContextSpeech significantly improves the voice quality and prosody expressiveness in paragraph reading with competitive model efficiency. Audio samples are available at: https://contextspeech.github.io/demo/

arxiv情報

著者 Yujia Xiao,Shaofei Zhang,Xi Wang,Xu Tan,Lei He,Sheng Zhao,Frank K. Soong,Tan Lee
発行日 2023-07-03 06:55:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS パーマリンク