DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

要約

制御可能な音楽生成方法は、人間中心の AI ベースの音楽作成にとって重要ですが、現在、速度、品質、制御設計のトレードオフによって制限されています。
特に、拡散推論時間 T 最適化 (DITTO) は最先端の結果を提供しますが、リアルタイムよりも 10 倍以上遅いため、実用化は制限されています。
私たちは、推論時間最適化ベースの制御を高速化し、音楽などのさまざまなアプリケーションでリアルタイムよりも高速な生成を可能にする新しい方法である Distilled Diffusion Inference-Time T-Optimization (または DITTO-2) を提案します。
インペインティング、アウトペインティング、強度、メロディー、音楽構造の制御。
私たちの方法は、(1) 効率的で変更された一貫性または一貫性軌道蒸留プロセスを介して、高速サンプリング用に事前トレーニングされた拡散モデルを蒸留します (2) 効率的な代理最適化として 1 ステップのサンプリングを使用して蒸留されたモデルを使用して推論時間の最適化を実行します。
(3) 推定された潜在ノイズを使用して最終的なマルチステップ サンプリング生成 (デコード) を実行し、最高品質、高速、制御可能な生成を実現します。
徹底的な評価により、私たちの方法は生成を 10 ~ 20 倍以上高速化するだけでなく、制御の遵守と生成の品質を同時に向上させることがわかりました。
さらに、テキスト遵守 (CLAP スコア) を最大化する新しいアプリケーションにアプローチを適用し、テキスト入力のない無条件拡散モデルを、最先端のテキスト コントロールを生み出すモデルに変換できることを示します。
サウンドのサンプルは https://ditto-music.github.io/ditto2/ にあります。

要約(オリジナル)

Controllable music generation methods are critical for human-centered AI-based music creation, but are currently limited by speed, quality, and control design trade-offs. Diffusion Inference-Time T-optimization (DITTO), in particular, offers state-of-the-art results, but is over 10x slower than real-time, limiting practical use. We propose Distilled Diffusion Inference-Time T -Optimization (or DITTO-2), a new method to speed up inference-time optimization-based control and unlock faster-than-real-time generation for a wide-variety of applications such as music inpainting, outpainting, intensity, melody, and musical structure control. Our method works by (1) distilling a pre-trained diffusion model for fast sampling via an efficient, modified consistency or consistency trajectory distillation process (2) performing inference-time optimization using our distilled model with one-step sampling as an efficient surrogate optimization task and (3) running a final multi-step sampling generation (decoding) using our estimated noise latents for best-quality, fast, controllable generation. Through thorough evaluation, we find our method not only speeds up generation over 10-20x, but simultaneously improves control adherence and generation quality all at once. Furthermore, we apply our approach to a new application of maximizing text adherence (CLAP score) and show we can convert an unconditional diffusion model without text inputs into a model that yields state-of-the-art text control. Sound examples can be found at https://ditto-music.github.io/ditto2/.

arxiv情報

著者 Zachary Novack,Julian McAuley,Taylor Berg-Kirkpatrick,Nicholas Bryan
発行日 2024-05-30 17:40:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD パーマリンク