要約
FastSpeech 2をベースとした最新の非自己回帰的音声合成モデルにより、高忠実度かつ自然な音声を効率的に合成することができる。しかし、表現力豊かな音声データセットでは、特徴的な音声の歪みが観察される。このようなアーティファクトは、mel-spectrogramデコーダのトレーニングに平均二乗誤差(MSE)損失を選択することによって誘発される、過度に滑らかなmel-spectrogram予測によってボコーダ再構成にもたらされることを証明します。MSE損失では、FastSpeech 2はトレーニング分布の条件付き平均を学習するように制限されており、すべての条件付け信号の後に分布がまだマルチモーダルである場合、自然のサンプルに近くならないことがあります。この問題を軽減するために、TVC-GMMを導入し、残存するマルチモーダル性をモデル化します。TVC-GMMはスペクトログラムの滑らかさを低減し、特に表現力豊かなデータセットにおいて、客観的・主観的評価により知覚的な音質を向上させることができる。
要約(オリジナル)
State-of-the-art non-autoregressive text-to-speech (TTS) models based on FastSpeech 2 can efficiently synthesise high-fidelity and natural speech. For expressive speech datasets however, we observe characteristic audio distortions. We demonstrate that such artefacts are introduced to the vocoder reconstruction by over-smooth mel-spectrogram predictions, which are induced by the choice of mean-squared-error (MSE) loss for training the mel-spectrogram decoder. With MSE loss FastSpeech 2 is limited to learn conditional averages of the training distribution, which might not lie close to a natural sample if the distribution still appears multimodal after all conditioning signals. To alleviate this problem, we introduce TVC-GMM, a mixture model of Trivariate-Chain Gaussian distributions, to model the residual multimodality. TVC-GMM reduces spectrogram smoothness and improves perceptual audio quality in particular for expressive datasets as shown by both objective and subjective evaluation.
arxiv情報
著者 | Fabian Kögel,Bac Nguyen,Fabien Cardinaux |
発行日 | 2023-06-02 11:03:26+00:00 |
arxivサイト | arxiv_id(pdf) |