要約
我々は、初期ノイズ潜在を最適化することで推論時間に事前トレーニングされたテキストから音楽への拡散モデルを制御するための汎用フレームワークである拡散推論時間 T 最適化 (DITTO) を提案します。
私たちの方法は、微分可能な特徴マッチング損失を通じて最適化して目標 (定型化された) 出力を達成するために使用でき、メモリ効率のために勾配チェックポイントを利用できます。
私たちは、インペイント、アウトペイント、ループだけでなく、強度、メロディー、音楽構造の制御など、基礎となるモデルを微調整することなく、音楽生成のための驚くほど幅広いアプリケーションを実証します。
私たちのアプローチを、関連するトレーニング、ガイダンス、および最適化ベースの手法と比較すると、DITTO は、制御性、音質、計算効率において同等のアプローチを上回るパフォーマンスを含む、ほぼすべてのタスクで最先端のパフォーマンスを達成していることがわかります。
高品質で柔軟な、トレーニング不要の拡散モデル制御への扉です。
サウンドのサンプルは https://DITTO-Music.github.io/web/ にあります。
要約(オリジナル)
We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose frame-work for controlling pre-trained text-to-music diffusion models at inference-time via optimizing initial noise latents. Our method can be used to optimize through any differentiable feature matching loss to achieve a target (stylized) output and leverages gradient checkpointing for memory efficiency. We demonstrate a surprisingly wide-range of applications for music generation including inpainting, outpainting, and looping as well as intensity, melody, and musical structure control – all without ever fine-tuning the underlying model. When we compare our approach against related training, guidance, and optimization-based methods, we find DITTO achieves state-of-the-art performance on nearly all tasks, including outperforming comparable approaches on controllability, audio quality, and computational efficiency, thus opening the door for high-quality, flexible, training-free control of diffusion models. Sound examples can be found at https://DITTO-Music.github.io/web/.
arxiv情報
著者 | Zachary Novack,Julian McAuley,Taylor Berg-Kirkpatrick,Nicholas J. Bryan |
発行日 | 2024-01-22 18:10:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google