Wave-U-Net Discriminator: Fast and Lightweight Discriminator for Generative Adversarial Network-Based Speech Synthesis

要約

音声合成では、ミニマックス ゲームで生成器 (音声合成器) と弁別器をトレーニングする敵対的生成ネットワーク (GAN) が、音声品質を改善するために広く使用されています。
最近のニューラル ボコーダー (HiFi-GAN など) やエンドツーエンドの音声合成 (TTS) システム (VITS など) では、複数の視点から波形を精査するために、ディスクリミネーターのアンサンブルが一般的に使用されています。
このような弁別器により、合成された音声を実際の音声に適切に近づけることができます。
ただし、識別器の数の増加に応じて、モデルのサイズと計算時間の増加が必要になります。
あるいは、この研究では、Wave-U-Net アーキテクチャを備えた単一でありながら表現力のある弁別器である Wave-U-Net 弁別器を提案しています。
この識別子は一意です。
入力信号と同じ解像度でサンプル単位の方法で波形を評価し、スキップ接続を使用してエンコーダーとデコーダーを介してマルチレベル機能を抽出できます。
このアーキテクチャは、合成された音声が実際の音声に厳密に一致するのに十分な豊富な情報を生成器に提供します。
実験中、提案されたアイデアは、代表的なニューラル ボコーダー (HiFi-GAN) とエンド ツー エンドの TTS システム (VITS) に適用されました。
結果は、提案されたモデルが、HiFi-GAN で使用された場合は 2.31 倍高速で 14.5 倍軽量な弁別器で、VITS で使用された場合は 1.90 倍高速で 9.62 倍軽量な弁別器で、同等の音声品質を達成できることを示しています。
音声サンプルは https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/waveunetd/ で入手できます。

要約(オリジナル)

In speech synthesis, a generative adversarial network (GAN), training a generator (speech synthesizer) and a discriminator in a min-max game, is widely used to improve speech quality. An ensemble of discriminators is commonly used in recent neural vocoders (e.g., HiFi-GAN) and end-to-end text-to-speech (TTS) systems (e.g., VITS) to scrutinize waveforms from multiple perspectives. Such discriminators allow synthesized speech to adequately approach real speech; however, they require an increase in the model size and computation time according to the increase in the number of discriminators. Alternatively, this study proposes a Wave-U-Net discriminator, which is a single but expressive discriminator with Wave-U-Net architecture. This discriminator is unique; it can assess a waveform in a sample-wise manner with the same resolution as the input signal, while extracting multilevel features via an encoder and decoder with skip connections. This architecture provides a generator with sufficiently rich information for the synthesized speech to be closely matched to the real speech. During the experiments, the proposed ideas were applied to a representative neural vocoder (HiFi-GAN) and an end-to-end TTS system (VITS). The results demonstrate that the proposed models can achieve comparable speech quality with a 2.31 times faster and 14.5 times more lightweight discriminator when used in HiFi-GAN and a 1.90 times faster and 9.62 times more lightweight discriminator when used in VITS. Audio samples are available at https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/waveunetd/.

arxiv情報

著者 Takuhiro Kaneko,Hirokazu Kameoka,Kou Tanaka,Shogo Seki
発行日 2023-03-24 10:46:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP パーマリンク