iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using 1D-2D CNN

要約

逆短時間フーリエ変換ネットワーク (iSTFTNet) は、高速、軽量、高忠実度の音声合成により注目を集めています。
これらの特性は、高速かつ軽量の 1D CNN をバックボーンとして使用し、一部の神経プロセスを iSTFT に置き換えて取得します。
1D CNN では高次元のスペクトログラムをモデル化することが難しいため、時間的なアップサンプリングによって周波数次元が削減されます。
ただし、この戦略では速度を向上させる可能性が損なわれます。
したがって、私たちは、1D と 2D CNN を使用して時間構造とスペクトログラム構造をそれぞれモデル化する、1D-2D CNN を備えた iSTFTNet の改良版である iSTFTNet2 を提案します。
数周波数空間で変換後に周波数アップサンプリングを実行する 2D CNN を設計しました。
この設計により、速度を損なうことなく高次元スペクトログラムのモデリングが容易になります。
結果は、iSTFTNet2 により iSTFTNet が同等の音声品質でより高速かつ軽量になることが実証されました。
音声サンプルは https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/istftnet2/ から入手できます。

要約(オリジナル)

The inverse short-time Fourier transform network (iSTFTNet) has garnered attention owing to its fast, lightweight, and high-fidelity speech synthesis. It obtains these characteristics using a fast and lightweight 1D CNN as the backbone and replacing some neural processes with iSTFT. Owing to the difficulty of a 1D CNN to model high-dimensional spectrograms, the frequency dimension is reduced via temporal upsampling. However, this strategy compromises the potential to enhance the speed. Therefore, we propose iSTFTNet2, an improved variant of iSTFTNet with a 1D-2D CNN that employs 1D and 2D CNNs to model temporal and spectrogram structures, respectively. We designed a 2D CNN that performs frequency upsampling after conversion in a few-frequency space. This design facilitates the modeling of high-dimensional spectrograms without compromising the speed. The results demonstrated that iSTFTNet2 made iSTFTNet faster and more lightweight with comparable speech quality. Audio samples are available at https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/istftnet2/.

arxiv情報

著者 Takuhiro Kaneko,Hirokazu Kameoka,Kou Tanaka,Shogo Seki
発行日 2023-08-14 12:56:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS, stat.ML パーマリンク