Cross-Utterance Conditioned VAE for Speech Generation

要約

ニューラル ネットワークを活用した音声合成システムは、マルチメディア制作に有望ですが、表現力豊かな音声の作成やシームレスな編集に関してしばしば問題に直面します。
これに応えて、韻律を強化し、自然な音声生成を保証するクロス発話条件付き変分オートエンコーダ音声合成 (CUC-VAE S2) フレームワークを紹介します。
このフレームワークは、事前トレーニングされた言語モデルの強力な表現機能と変分オートエンコーダー (VAE) の再表現機能を活用します。
CUC-VAE S2 フレームワークのコア コンポーネントは、クロス発話 CVAE です。これは、周囲の文から音響、話者、およびテキストの特徴を抽出して、文脈依存の韻律特徴を生成し、人間の韻律生成をより正確にエミュレートします。
さらに、異なる音声合成アプリケーションに合わせて調整された 2 つの実用的なアルゴリズム、テキスト読み上げ用の CUC-VAE TTS と音声編集用の CUC-VAE SE を提案します。
CUC-VAE TTS はフレームワークを直接適用したもので、周囲のテキストから派生した文脈上の韻律を持つ音声を生成するように設計されています。
一方、CUC-VAE SE アルゴリズムは、コンテキスト情報に基づいて条件付けされたリアル メル スペクトログラム サンプリングを活用し、実際のサウンドを忠実に反映したオーディオを生成するため、削除、挿入、置換などのテキストに基づく柔軟な音声編集を容易にします。
LibriTTS データセットの実験結果は、私たちが提案したモデルが音声合成と編集を大幅に強化し、より自然で表現力豊かな音声を生成することを示しています。

要約(オリジナル)

Speech synthesis systems powered by neural networks hold promise for multimedia production, but frequently face issues with producing expressive speech and seamless editing. In response, we present the Cross-Utterance Conditioned Variational Autoencoder speech synthesis (CUC-VAE S2) framework to enhance prosody and ensure natural speech generation. This framework leverages the powerful representational capabilities of pre-trained language models and the re-expression abilities of variational autoencoders (VAEs). The core component of the CUC-VAE S2 framework is the cross-utterance CVAE, which extracts acoustic, speaker, and textual features from surrounding sentences to generate context-sensitive prosodic features, more accurately emulating human prosody generation. We further propose two practical algorithms tailored for distinct speech synthesis applications: CUC-VAE TTS for text-to-speech and CUC-VAE SE for speech editing. The CUC-VAE TTS is a direct application of the framework, designed to generate audio with contextual prosody derived from surrounding texts. On the other hand, the CUC-VAE SE algorithm leverages real mel spectrogram sampling conditioned on contextual information, producing audio that closely mirrors real sound and thereby facilitating flexible speech editing based on text such as deletion, insertion, and replacement. Experimental results on the LibriTTS datasets demonstrate that our proposed models significantly enhance speech synthesis and editing, producing more natural and expressive speech.

arxiv情報

著者 Yang Li,Cheng Yu,Guangzhi Sun,Weiqin Zu,Zheng Tian,Ying Wen,Wei Pan,Chao Zhang,Jun Wang,Yang Yang,Fanglei Sun
発行日 2023-09-08 06:48:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク