要約
この論文の目標は、FreGrad という軽量で高速な拡散ベースのボコーダーを使用してリアルなオーディオを生成することです。
私たちのフレームワークは、次の 3 つの主要なコンポーネントで構成されています。(1) 複雑な波形をサブバンド ウェーブレットに分解する離散ウェーブレット変換を採用します。これは、FreGrad が単純で簡潔な特徴空間で動作するのに役立ちます。(2) 周波数を設計します。
周波数認識を高める意識的な拡張畳み込みにより、正確な周波数情報を含む音声が生成されます。(3) 提案されたモデルの生成品質を向上させる一連のトリックを紹介します。
私たちの実験では、FreGrad はベースラインと比較して 3.7 倍のトレーニング時間と 2.2 倍の推論速度を達成しながら、出力品質を犠牲にすることなくモデル サイズを 0.6 倍 (パラメーターはわずか 178 万個) 削減しました。
音声サンプルは https://mm.kaist.ac.kr/projects/FreGrad で入手できます。
要約(オリジナル)
The goal of this paper is to generate realistic audio with a lightweight and fast diffusion-based vocoder, named FreGrad. Our framework consists of the following three key components: (1) We employ discrete wavelet transform that decomposes a complicated waveform into sub-band wavelets, which helps FreGrad to operate on a simple and concise feature space, (2) We design a frequency-aware dilated convolution that elevates frequency awareness, resulting in generating speech with accurate frequency information, and (3) We introduce a bag of tricks that boosts the generation quality of the proposed model. In our experiments, FreGrad achieves 3.7 times faster training time and 2.2 times faster inference speed compared to our baseline while reducing the model size by 0.6 times (only 1.78M parameters) without sacrificing the output quality. Audio samples are available at: https://mm.kaist.ac.kr/projects/FreGrad.
arxiv情報
著者 | Tan Dat Nguyen,Ji-Hoon Kim,Youngjoon Jang,Jaehun Kim,Joon Son Chung |
発行日 | 2024-01-18 14:57:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google