Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation

要約

拡散モデルは、大部分の Text-to-Audio (TTA) 生成方法を強化します。
残念ながら、これらのモデルは、基盤となるノイズ除去ネットワークへの反復クエリにより推論速度が遅いという問題があり、推論時間や計算上の制約があるシナリオには適していません。
この研究では、最近提案された整合性蒸留フレームワークを修正して、単一のニューラル ネットワーク クエリのみを必要とする TTA モデルをトレーニングします。
分類器を使用しないガイダンスを蒸留プロセスに組み込むことに加えて、蒸留トレーニング中に生成された音声の可用性を利用して、CLAP スコアなどの音声空間の新しい損失関数を使用して一貫性 TTA モデルを微調整します。
AudioCaps データセットに関する客観的および主観的な評価結果は、整合性モデルが拡散モデルの高い世代品質と多様性を維持しながら、クエリ数を 400 分の 1 に削減することを示しています。

要約(オリジナル)

Diffusion models power a vast majority of text-to-audio (TTA) generation methods. Unfortunately, these models suffer from slow inference speed due to iterative queries to the underlying denoising network, thus unsuitable for scenarios with inference time or computational constraints. This work modifies the recently proposed consistency distillation framework to train TTA models that require only a single neural network query. In addition to incorporating classifier-free guidance into the distillation process, we leverage the availability of generated audio during distillation training to fine-tune the consistency TTA model with novel loss functions in the audio space, such as the CLAP score. Our objective and subjective evaluation results on the AudioCaps dataset show that consistency models retain diffusion models’ high generation quality and diversity while reducing the number of queries by a factor of 400.

arxiv情報

著者 Yatong Bai,Trung Dang,Dung Tran,Kazuhito Koishida,Somayeh Sojoudi
発行日 2023-09-19 16:36:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS パーマリンク