DiffVoice: Text-to-Speech with Latent Diffusion

要約

タイトル:DiffVoice:潜在拡散を用いたテキスト音声合成

要約:
– DiffVoiceは、潜在拡散に基づく新しいテキスト音声モデルで、音声信号を可変オートエンコーダーによる敵対的トレーニングによって音素速度の潜在表現にエンコードし、その後、拡散モデルで期間と潜在表現を共同モデル化することを提案しています。
– LJSpeechおよびLibriTTSデータセットでの主観的な評価により、DiffVoiceは、自然さにおいて、最高レベルの公開システムを上回ることを証明しています。
– 拡散モデルのための最近の生成逆問題解決アルゴリズムを採用することにより、DiffVoiceは、テキストベースの音声編集やゼロショット適応において、最先端の性能を発揮しています。

要約(オリジナル)

In this work, we present DiffVoice, a novel text-to-speech model based on latent diffusion. We propose to first encode speech signals into a phoneme-rate latent representation with a variational autoencoder enhanced by adversarial training, and then jointly model the duration and the latent representation with a diffusion model. Subjective evaluations on LJSpeech and LibriTTS datasets demonstrate that our method beats the best publicly available systems in naturalness. By adopting recent generative inverse problem solving algorithms for diffusion models, DiffVoice achieves the state-of-the-art performance in text-based speech editing, and zero-shot adaptation.

arxiv情報

著者 Zhijun Liu,Yiwei Guo,Kai Yu
発行日 2023-04-23 21:05:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.HC, cs.LG, cs.SD, eess.AS パーマリンク