要約
我々はDITTO(Diffusion Inference-Time T-Optimization)を提案する。DITTOは、初期ノイズ潜在量を最適化することにより、推論時に事前学習されたテキストから音楽への拡散モデルを制御するための汎用フレームワークである。本手法は、任意の微分可能な特徴マッチング損失を通して最適化することができ、メモリ効率のために勾配チェックポイントを活用する。我々は、インペインティング、アウトペインティング、ルーピング、インテンシティ、メロディ、音楽構造制御を含む、音楽生成のための驚くほど幅広いアプリケーションを実証する。関連するトレーニング、ガイダンス、最適化ベースの手法と比較したところ、DITTOは、制御性、音質、計算効率で同等のアプローチを上回るなど、ほぼすべてのタスクで最先端の性能を達成し、高品質で柔軟な、トレーニング不要の拡散モデル制御への扉を開くことがわかりました。サウンドサンプルはhttps://DITTO-Music.github.io/web/。
要約(オリジナル)
We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose frame-work for controlling pre-trained text-to-music diffusion models at inference-time via optimizing initial noise latents. Our method can be used to optimize through any differentiable feature matching loss to achieve a target (stylized) output and leverages gradient checkpointing for memory efficiency. We demonstrate a surprisingly wide-range of applications for music generation including inpainting, outpainting, and looping as well as intensity, melody, and musical structure control – all without ever fine-tuning the underlying model. When we compare our approach against related training, guidance, and optimization-based methods, we find DITTO achieves state-of-the-art performance on nearly all tasks, including outperforming comparable approaches on controllability, audio quality, and computational efficiency, thus opening the door for high-quality, flexible, training-free control of diffusion models. Sound examples can be found at https://DITTO-Music.github.io/web/.
arxiv情報
著者 | Zachary Novack,Julian McAuley,Taylor Berg-Kirkpatrick,Nicholas J. Bryan |
発行日 | 2024-06-03 17:37:53+00:00 |
arxivサイト | arxiv_id(pdf) |