DiffProsody: Diffusion-based Latent Prosody Generation for Expressive Speech Synthesis with Prosody Conditional Adversarial Training

要約

表現力豊かなテキスト読み上げシステムは、韻律モデリングにより大幅な進歩を遂げていますが、従来の方法はまだ改善の余地があります。
従来のアプローチは、量子化された韻律ベクトルを予測するために自己回帰法に依存していました。
ただし、長期的な依存性と推論の遅さという問題があります。
この研究では、拡散ベースの潜在韻律ジェネレーターと韻律条件付き敵対トレーニングを使用して表現力豊かな音声を合成する、DiffProsody と呼ばれる新しいアプローチを提案します。
私たちの調査結果は、韻律ベクトルを生成する際の韻律ジェネレーターの有効性を裏付けています。
さらに、当社の韻律条件付き弁別器は、韻律を正確にエミュレートすることにより、生成される音声の品質を大幅に向上させます。
韻律生成速度を向上させるために、ノイズ除去拡散生成敵対的ネットワークを使用します。
その結果、DiffProsody は従来の拡散モデルよりも 16 倍速く韻律を生成することができます。
提案手法の優れた性能は実験によって実証されました。

要約(オリジナル)

Expressive text-to-speech systems have undergone significant advancements owing to prosody modeling, but conventional methods can still be improved. Traditional approaches have relied on the autoregressive method to predict the quantized prosody vector; however, it suffers from the issues of long-term dependency and slow inference. This study proposes a novel approach called DiffProsody in which expressive speech is synthesized using a diffusion-based latent prosody generator and prosody conditional adversarial training. Our findings confirm the effectiveness of our prosody generator in generating a prosody vector. Furthermore, our prosody conditional discriminator significantly improves the quality of the generated speech by accurately emulating prosody. We use denoising diffusion generative adversarial networks to improve the prosody generation speed. Consequently, DiffProsody is capable of generating prosody 16 times faster than the conventional diffusion model. The superior performance of our proposed method has been demonstrated via experiments.

arxiv情報

著者 Hyung-Seok Oh,Sang-Hoon Lee,Seong-Whan Lee
発行日 2023-07-31 10:28:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク