Autoregressive Speech Synthesis without Vector Quantization

要約

我々は、テキスト音声合成 (TTS) のための新しい連続値トークンベースの言語モデリング アプローチである MELLE を紹介します。
MELLE は、テキスト条件から直接連続メル スペクトログラム フレームを自己回帰的に生成し、ベクトル量子化の必要性を回避します。ベクトル量子化は、もともと音声圧縮を目的として設計されており、メル スペクトログラムと比較して忠実度を犠牲にしています。
具体的には、(i) クロスエントロピー損失の代わりに、提案されたスペクトログラム磁束損失関数を使用した回帰損失を適用して、連続値トークンの確率分布をモデル化します。
(ii) 変分推論を MELLE に組み込んでサンプリング メカニズムを促進し、それによって出力の多様性とモデルの堅牢性を強化しました。
実験では、2 段階のコーデック言語モデルである VALL-E とそのバリアントと比較して、1 段階の MELLE は離散コードのサンプリングに固有の欠陥を回避することで堅牢性の問題を軽減し、複数のメトリクスにわたって優れたパフォーマンスを達成すること、そして最も重要なことに、
より合理化されたパラダイムを提供します。
私たちの取り組みのデモについては、https://aka.ms/melle をご覧ください。

要約(オリジナル)

We present MELLE, a novel continuous-valued tokens based language modeling approach for text to speech synthesis (TTS). MELLE autoregressively generates continuous mel-spectrogram frames directly from text condition, bypassing the need for vector quantization, which are originally designed for audio compression and sacrifice fidelity compared to mel-spectrograms. Specifically, (i) instead of cross-entropy loss, we apply regression loss with a proposed spectrogram flux loss function to model the probability distribution of the continuous-valued tokens. (ii) we have incorporated variational inference into MELLE to facilitate sampling mechanisms, thereby enhancing the output diversity and model robustness. Experiments demonstrate that, compared to the two-stage codec language models VALL-E and its variants, the single-stage MELLE mitigates robustness issues by avoiding the inherent flaws of sampling discrete codes, achieves superior performance across multiple metrics, and, most importantly, offers a more streamlined paradigm. See https://aka.ms/melle for demos of our work.

arxiv情報

著者 Lingwei Meng,Long Zhou,Shujie Liu,Sanyuan Chen,Bing Han,Shujie Hu,Yanqing Liu,Jinyu Li,Sheng Zhao,Xixin Wu,Helen Meng,Furu Wei
発行日 2024-07-11 14:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク