Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis

要約

最近のニューラル・ヴォコーディングの進歩は、主に時間領域で動作するGenerative Adversarial Networks(GAN)によって推進されている。このアプローチは効果的ではあるが、時間周波数表現が提供する帰納的バイアスを無視しており、その結果、アップサンプリング処理に多大な労力と計算負荷がかかる。フーリエベースの時間周波数表現は魅力的な代替手段であり、人間の聴覚により正確に一致し、計算のための高速アルゴリズムが確立されています。それにもかかわらず、複素数値のスペクトログラムを直接再構成することは、主に位相回復の問題により、歴史的に問題があった。本研究では、フーリエスペクトル係数を直接生成する新しいモデルVocosを提示することで、このギャップを埋めようとしている。Vocosは、我々の評価で実証されたように、音質において最先端のものと一致するだけでなく、計算効率も大幅に改善し、一般的な時間領域のニューラルボコーディングアプローチと比較して、桁違いの高速化を達成した。ソースコードとモデルの重みは、https://github.com/charactr-platform/vocos でオープンソース化されている。

要約(オリジナル)

Recent advancements in neural vocoding are predominantly driven by Generative Adversarial Networks (GANs) operating in the time-domain. While effective, this approach neglects the inductive bias offered by time-frequency representations, resulting in reduntant and computionally-intensive upsampling operations. Fourier-based time-frequency representation is an appealing alternative, aligning more accurately with human auditory perception, and benefitting from well-established fast algorithms for its computation. Nevertheless, direct reconstruction of complex-valued spectrograms has been historically problematic, primarily due to phase recovery issues. This study seeks to close this gap by presenting Vocos, a new model that directly generates Fourier spectral coefficients. Vocos not only matches the state-of-the-art in audio quality, as demonstrated in our evaluations, but it also substantially improves computational efficiency, achieving an order of magnitude increase in speed compared to prevailing time-domain neural vocoding approaches. The source code and model weights have been open-sourced at https://github.com/charactr-platform/vocos.

arxiv情報

著者 Hubert Siuzdak
発行日 2023-10-03 15:49:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク