Wave-U-Net Discriminator: Fast and Lightweight Discriminator for Generative Adversarial Network-Based Speech Synthesis


音声合成では、ミニマックス ゲームで生成器 (音声合成器) と弁別器をトレーニングする敵対的生成ネットワーク (GAN) が、音声品質を改善するために広く使用されています。
最近のニューラル ボコーダー (HiFi-GAN など) やエンドツーエンドの音声合成 (TTS) システム (VITS など) では、複数の視点から波形を精査するために、ディスクリミネーターのアンサンブルが一般的に使用されています。
あるいは、この研究では、Wave-U-Net アーキテクチャを備えた単一でありながら表現力のある弁別器である Wave-U-Net 弁別器を提案しています。
実験中、提案されたアイデアは、代表的なニューラル ボコーダー (HiFi-GAN) とエンド ツー エンドの TTS システム (VITS) に適用されました。
結果は、提案されたモデルが、HiFi-GAN で使用された場合は 2.31 倍高速で 14.5 倍軽量な弁別器で、VITS で使用された場合は 1.90 倍高速で 9.62 倍軽量な弁別器で、同等の音声品質を達成できることを示しています。
音声サンプルは https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/waveunetd/ で入手できます。


In speech synthesis, a generative adversarial network (GAN), training a generator (speech synthesizer) and a discriminator in a min-max game, is widely used to improve speech quality. An ensemble of discriminators is commonly used in recent neural vocoders (e.g., HiFi-GAN) and end-to-end text-to-speech (TTS) systems (e.g., VITS) to scrutinize waveforms from multiple perspectives. Such discriminators allow synthesized speech to adequately approach real speech; however, they require an increase in the model size and computation time according to the increase in the number of discriminators. Alternatively, this study proposes a Wave-U-Net discriminator, which is a single but expressive discriminator with Wave-U-Net architecture. This discriminator is unique; it can assess a waveform in a sample-wise manner with the same resolution as the input signal, while extracting multilevel features via an encoder and decoder with skip connections. This architecture provides a generator with sufficiently rich information for the synthesized speech to be closely matched to the real speech. During the experiments, the proposed ideas were applied to a representative neural vocoder (HiFi-GAN) and an end-to-end TTS system (VITS). The results demonstrate that the proposed models can achieve comparable speech quality with a 2.31 times faster and 14.5 times more lightweight discriminator when used in HiFi-GAN and a 1.90 times faster and 9.62 times more lightweight discriminator when used in VITS. Audio samples are available at https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/waveunetd/.


著者 Takuhiro Kaneko,Hirokazu Kameoka,Kou Tanaka,Shogo Seki
発行日 2023-03-24 10:46:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP パーマリンク