Comparing normalizing flows and diffusion models for prosody and acoustic modelling in text-to-speech

要約

ニューラル テキスト読み上げシステムは、多くの場合、L1/L2 損失に基づいて最適化されており、ターゲット データ スペースの分布について強い仮定を立てています。
これらの仮定を改善することを目的として、正規化フローと拡散確率モデルが代替案として最近提案されました。
この論文では、テキスト音声合成の韻律およびメル スペクトログラム予測のタスクについて、従来の L1/L2 ベースのアプローチと拡散およびフローベースのアプローチを比較します。
韻律モデルを使用して、log-f0 および継続時間の特徴を生成します。これらの特徴は、メル スペクトログラムを生成する音響モデルを調整するために使用されます。
実験結果は、フローベースのモデルがスペクトログラム予測で最高のパフォーマンスを達成し、同等の拡散モデルや L1 モデルよりも向上していることを示しています。
一方、拡散ベースとフローベースの両方の韻律予測子は、典型的な L2 でトレーニングされた韻律モデルに比べて大幅な改善をもたらします。

要約(オリジナル)

Neural text-to-speech systems are often optimized on L1/L2 losses, which make strong assumptions about the distributions of the target data space. Aiming to improve those assumptions, Normalizing Flows and Diffusion Probabilistic Models were recently proposed as alternatives. In this paper, we compare traditional L1/L2-based approaches to diffusion and flow-based approaches for the tasks of prosody and mel-spectrogram prediction for text-to-speech synthesis. We use a prosody model to generate log-f0 and duration features, which are used to condition an acoustic model that generates mel-spectrograms. Experimental results demonstrate that the flow-based model achieves the best performance for spectrogram prediction, improving over equivalent diffusion and L1 models. Meanwhile, both diffusion and flow-based prosody predictors result in significant improvements over a typical L2-trained prosody models.

arxiv情報

著者 Guangyan Zhang,Thomas Merritt,Manuel Sam Ribeiro,Biel Tura-Vecino,Kayoko Yanagisawa,Kamil Pokora,Abdelhamid Ezzerg,Sebastian Cygert,Ammar Abbas,Piotr Bilinski,Roberto Barra-Chicote,Daniel Korzekwa,Jaime Lorenzo-Trueba
発行日 2023-07-31 13:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク