VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders

要約

音声合成における敵対的生成ネットワーク (GAN) の導入以来、目覚ましい成果が達成されてきました。
ボコーダーの徹底的な研究により、GAN ベースのモデルを利用することで、高忠実度を維持しながらリアルタイムを超える速度でオーディオ波形を生成できることが判明しました。
通常、ボコーダーへの入力は帯域制限されたスペクトル情報で構成され、必然的に高周波の詳細が犠牲になります。
これに対処するために、ボコーダーに可能な限り包括的な情報を提供することを目的として、フルバンドのメル スペクトログラム情報を入力として採用します。
ただし、以前の研究では、入力としてフルバンドのスペクトル情報を使用すると、過剰な平滑化の問題が発生し、合成音声の自然さが損なわれる可能性があることが明らかになりました。
この課題に取り組むために、フルバンドのスペクトル情報を組み込み、高解像度信号を生成するために複数のサブディスクリミネーターで構成される多層ディスクリミネーター (MTD) を導入する GAN ベースのニューラル ボコーダー ネットワークである VNet を提案します。
さらに、ジェネレーターとディスクリミネーターの敵対的損失を修正する漸近的に制約された方法を導入し、トレーニング プロセスの安定性を高めます。
厳密な実験を通じて、VNet モデルが高忠実度の音声を生成し、ボコーダーのパフォーマンスを大幅に向上させることができることを実証しました。

要約(オリジナル)

Since the introduction of Generative Adversarial Networks (GANs) in speech synthesis, remarkable achievements have been attained. In a thorough exploration of vocoders, it has been discovered that audio waveforms can be generated at speeds exceeding real-time while maintaining high fidelity, achieved through the utilization of GAN-based models. Typically, the inputs to the vocoder consist of band-limited spectral information, which inevitably sacrifices high-frequency details. To address this, we adopt the full-band Mel spectrogram information as input, aiming to provide the vocoder with the most comprehensive information possible. However, previous studies have revealed that the use of full-band spectral information as input can result in the issue of over-smoothing, compromising the naturalness of the synthesized speech. To tackle this challenge, we propose VNet, a GAN-based neural vocoder network that incorporates full-band spectral information and introduces a Multi-Tier Discriminator (MTD) comprising multiple sub-discriminators to generate high-resolution signals. Additionally, we introduce an asymptotically constrained method that modifies the adversarial loss of the generator and discriminator, enhancing the stability of the training process. Through rigorous experiments, we demonstrate that the VNet model is capable of generating high-fidelity speech and significantly improving the performance of the vocoder.

arxiv情報

著者 Yubing Cao,Yongming Li,Liejun Wang,Yinfeng Yu
発行日 2024-08-13 14:00:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.AS パーマリンク