Towards Robust FastSpeech 2 by Modelling Residual Multimodality

要約

FastSpeech 2をベースとした最新の非自己回帰的音声合成モデルにより、高忠実度かつ自然な音声を効率的に合成することができる。しかし、表現力豊かな音声データセットでは、特徴的な音声の歪みが観察される。このようなアーティファクトは、mel-spectrogramデコーダのトレーニングに平均二乗誤差(MSE)損失を選択することによって誘発される、過度に滑らかなmel-spectrogram予測によってボコーダ再構成にもたらされることを証明します。MSE損失では、FastSpeech 2はトレーニング分布の条件付き平均を学習するように制限されており、すべての条件付け信号の後に分布がまだマルチモーダルである場合、自然のサンプルに近くならないことがあります。この問題を軽減するために、TVC-GMMを導入し、残存するマルチモーダル性をモデル化します。TVC-GMMはスペクトログラムの滑らかさを低減し、特に表現力豊かなデータセットにおいて、客観的・主観的評価により知覚的な音質を向上させることができる。

要約(オリジナル)

State-of-the-art non-autoregressive text-to-speech (TTS) models based on FastSpeech 2 can efficiently synthesise high-fidelity and natural speech. For expressive speech datasets however, we observe characteristic audio distortions. We demonstrate that such artefacts are introduced to the vocoder reconstruction by over-smooth mel-spectrogram predictions, which are induced by the choice of mean-squared-error (MSE) loss for training the mel-spectrogram decoder. With MSE loss FastSpeech 2 is limited to learn conditional averages of the training distribution, which might not lie close to a natural sample if the distribution still appears multimodal after all conditioning signals. To alleviate this problem, we introduce TVC-GMM, a mixture model of Trivariate-Chain Gaussian distributions, to model the residual multimodality. TVC-GMM reduces spectrogram smoothness and improves perceptual audio quality in particular for expressive datasets as shown by both objective and subjective evaluation.

arxiv情報

著者 Fabian Kögel,Bac Nguyen,Fabien Cardinaux
発行日 2023-06-02 11:03:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク