要約
最近のニューラル・ヴォコーディングの進歩は、主に時間領域で動作するGenerative Adversarial Networks(GAN)によって推進されている。このアプローチは効果的ではあるが、時間周波数表現が提供する帰納的バイアスを無視しており、その結果、アップサンプリング処理に多大な労力と計算負荷がかかる。フーリエベースの時間周波数表現は魅力的な代替手段であり、人間の聴覚により正確に一致し、計算のための高速アルゴリズムが確立されています。それにもかかわらず、複素数値のスペクトログラムを直接再構成することは、主に位相回復の問題により、歴史的に問題があった。本研究では、フーリエスペクトル係数を直接生成する新しいモデルVocosを提示することで、このギャップを埋めようとしている。Vocosは、我々の評価で実証されたように、音質において最先端のものと一致するだけでなく、計算効率も大幅に改善し、一般的な時間領域のニューラルボコーディングアプローチと比較して、桁違いの高速化を達成した。ソースコードとモデルの重みは、https://github.com/charactr-platform/vocos でオープンソース化されている。
要約(オリジナル)
Recent advancements in neural vocoding are predominantly driven by Generative Adversarial Networks (GANs) operating in the time-domain. While effective, this approach neglects the inductive bias offered by time-frequency representations, resulting in reduntant and computionally-intensive upsampling operations. Fourier-based time-frequency representation is an appealing alternative, aligning more accurately with human auditory perception, and benefitting from well-established fast algorithms for its computation. Nevertheless, direct reconstruction of complex-valued spectrograms has been historically problematic, primarily due to phase recovery issues. This study seeks to close this gap by presenting Vocos, a new model that directly generates Fourier spectral coefficients. Vocos not only matches the state-of-the-art in audio quality, as demonstrated in our evaluations, but it also substantially improves computational efficiency, achieving an order of magnitude increase in speed compared to prevailing time-domain neural vocoding approaches. The source code and model weights have been open-sourced at https://github.com/charactr-platform/vocos.
arxiv情報
著者 | Hubert Siuzdak |
発行日 | 2023-10-03 15:49:34+00:00 |
arxivサイト | arxiv_id(pdf) |