Discrete Acoustic Space for an Efficient Sampling in Neural Text-To-Speech

要約

有名な変分オートエンコーダ (VAE) およびベクトル量子化変分オートエンコーダ (VQ-VAE) アーキテクチャの拡張機能として、NTTS 用の分割ベクトル量子化器を使用した分割ベクトル量子化変分オートエンコーダ (SVQ-VAE) アーキテクチャを紹介します。
これらの以前のアーキテクチャと比較して、私たちが提案するモデルは、発話レベルのボトルネックを使用する利点を維持しながら、テキストからの効率的な予測に十分な大きさの大きな表現力と離散化された潜在空間を維持します。
我々は、表現豊かなタスク指向の対話ドメインの録音でモデルをトレーニングし、SVQ-VAE が VAE および VQ-VAE モデルと比較して自然さにおいて統計的に有意な改善を達成することを示します。
さらに、SVQ-VAE の潜在音響空間がテキストから予測可能であり、標準的な定数ベクトル合成とボコード録音の間のギャップが 32% 削減されることを実証します。

要約(オリジナル)

We present a Split Vector Quantized Variational Autoencoder (SVQ-VAE) architecture using a split vector quantizer for NTTS, as an enhancement to the well-known Variational Autoencoder (VAE) and Vector Quantized Variational Autoencoder (VQ-VAE) architectures. Compared to these previous architectures, our proposed model retains the benefits of using an utterance-level bottleneck, while keeping significant representation power and a discretized latent space small enough for efficient prediction from text. We train the model on recordings in the expressive task-oriented dialogues domain and show that SVQ-VAE achieves a statistically significant improvement in naturalness over the VAE and VQ-VAE models. Furthermore, we demonstrate that the SVQ-VAE latent acoustic space is predictable from text, reducing the gap between the standard constant vector synthesis and vocoded recordings by 32%.

arxiv情報

著者 Marek Strong,Jonas Rohnke,Antonio Bonafonte,Mateusz Łajszczak,Trevor Wood
発行日 2023-09-14 12:34:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク