Minimally-Supervised Speech Synthesis with Conditional Diffusion Model and Language Model: A Comparative Study of Semantic Coding

要約

近年、2種類の離散音声表現を組み合わせ、TTSを分離するために2つのシーケンス間タスクを使用することで、最小限の監視で学習可能な音声合成(TTS)手法への関心が高まっている。しかし、既存の方法は3つの問題に悩まされている。離散音声表現の高い次元性と波形の歪み、非自己回帰的フレームワークにおける継続時間予測モデルに起因する韻律平均化問題、既存の意味符号化手法の情報の冗長性と次元爆発問題である。これらの問題に対処するため、3つの漸進的手法を提案する。まず、言語モデルと拡散モデルから構成される自己回帰構造であるDiff-LM-Speechを提案し、拡散モデルに基づいてmel-spectrogramへの意味埋め込みをモデル化し、より高い音質を実現する。また、変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し、プロンプト表現能力の向上を図る。次に、多様な韻律表現を実現するために、持続時間拡散モデルを設計する4つの拡散モデルに基づくモジュールからなる非自己回帰的構造であるTetra-Diff-Speechを提案する。最後に、Tri-Diff-Speechを提案する。Tri-Diff-Speechは、3つの拡散モデルに基づくモジュールから構成され、既存の意味符号化モデルの不要性を検証し、最良の結果を得ることができる。実験結果は、提案手法がベースライン手法を上回ることを示している。音声サンプルを含むウェブサイトを提供する。

要約(オリジナル)

Recently, there has been a growing interest in text-to-speech (TTS) methods that can be trained with minimal supervision by combining two types of discrete speech representations and using two sequence-to-sequence tasks to decouple TTS. However, existing methods suffer from three problems: the high dimensionality and waveform distortion of discrete speech representations, the prosodic averaging problem caused by the duration prediction model in non-autoregressive frameworks, and the information redundancy and dimension explosion problems of existing semantic encoding methods. To address these problems, three progressive methods are proposed. First, we propose Diff-LM-Speech, an autoregressive structure consisting of a language model and diffusion models, which models the semantic embedding into the mel-spectrogram based on a diffusion model to achieve higher audio quality. We also introduce a prompt encoder structure based on a variational autoencoder and a prosody bottleneck to improve prompt representation ability. Second, we propose Tetra-Diff-Speech, a non-autoregressive structure consisting of four diffusion model-based modules that design a duration diffusion model to achieve diverse prosodic expressions. Finally, we propose Tri-Diff-Speech, a non-autoregressive structure consisting of three diffusion model-based modules that verify the non-necessity of existing semantic encoding models and achieve the best results. Experimental results show that our proposed methods outperform baseline methods. We provide a website with audio samples.

arxiv情報

著者 Chunyu Qiang,Hao Li,Hao Ni,He Qu,Ruibo Fu,Tao Wang,Longbiao Wang,Jianwu Dang
発行日 2023-09-01 12:16:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク