BigVGAN: A Universal Neural Vocoder with Large-Scale Training

要約

モデルが音響特性に合わせて調整された生の波形を生成する、Generative Adversarial Network (GAN) ベースのボコーダーの最近の進歩にもかかわらず、さまざまな録音環境で多数のスピーカーの忠実度の高いオーディオを合成することは困難です。
この作業では、BigVGAN を紹介します。これは、微調整を行わなくても、さまざまな配信外のシナリオに対して適切に一般化するユニバーサル ボコーダーです。
定期的なアクティベーション機能とアンチエイリアス表現を GAN ジェネレーターに導入します。これにより、音声合成に必要な誘導バイアスがもたらされ、音声品質が大幅に向上します。
さらに、GAN ボコーダーを最大 1 億 1200 万のパラメーターまで最大規模でトレーニングします。これは文献では前例のないことです。
オーディオの大規模な GAN トレーニングの障害モードを特定して対処し、過剰な正則化を行わずに忠実度の高い出力を維持します。
クリーンスピーチ (LibriTTS) のみでトレーニングされた当社の BigVGAN は、目に見えないスピーカー、言語、録音環境、歌声、音楽、
そしてインストゥルメンタルオーディオ。
コードとモデルを https://github.com/NVIDIA/BigVGAN でリリースします。

要約(オリジナル)

Despite recent progress in generative adversarial network (GAN)-based vocoders, where the model generates raw waveform conditioned on acoustic features, it is challenging to synthesize high-fidelity audio for numerous speakers across various recording environments. In this work, we present BigVGAN, a universal vocoder that generalizes well for various out-of-distribution scenarios without fine-tuning. We introduce periodic activation function and anti-aliased representation into the GAN generator, which brings the desired inductive bias for audio synthesis and significantly improves audio quality. In addition, we train our GAN vocoder at the largest scale up to 112M parameters, which is unprecedented in the literature. We identify and address the failure modes in large-scale GAN training for audio, while maintaining high-fidelity output without over-regularization. Our BigVGAN, trained only on clean speech (LibriTTS), achieves the state-of-the-art performance for various zero-shot (out-of-distribution) conditions, including unseen speakers, languages, recording environments, singing voices, music, and instrumental audio. We release our code and model at: https://github.com/NVIDIA/BigVGAN

arxiv情報

著者 Sang-gil Lee,Wei Ping,Boris Ginsburg,Bryan Catanzaro,Sungroh Yoon
発行日 2023-02-16 18:48:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク