要約
タスク固有のモデルを再トレーニングすることなく、最先端の拡散およびフローマッチング (FM) モデルの生成結果を制御することで、逆問題、条件付き生成、および制御された生成全般を解決するための強力なツールが解放されます。
この研究では、フローを通じて微分し、発生源 (ノイズ) ポイントを最適化することで生成プロセスを制御するためのシンプルなフレームワークである D-Flow を紹介します。
このフレームワークは、ガウス確率パスでトレーニングされた拡散/FM モデルの場合、生成プロセスを通じて微分することでデータ多様体に勾配が投影され、暗黙的に事前分布が最適化プロセスに注入されるという重要な観察によって動機付けられています。
画像と音声の逆問題や条件付き分子生成など、すべてにおいて最先端のパフォーマンスに達する線形および非線形の制御生成問題に関するフレームワークを検証します。
要約(オリジナル)
Taming the generation outcome of state of the art Diffusion and Flow-Matching (FM) models without having to re-train a task-specific model unlocks a powerful tool for solving inverse problems, conditional generation, and controlled generation in general. In this work we introduce D-Flow, a simple framework for controlling the generation process by differentiating through the flow, optimizing for the source (noise) point. We motivate this framework by our key observation stating that for Diffusion/FM models trained with Gaussian probability paths, differentiating through the generation process projects gradient on the data manifold, implicitly injecting the prior into the optimization process. We validate our framework on linear and non-linear controlled generation problems including: image and audio inverse problems and conditional molecule generation reaching state of the art performance across all.
arxiv情報
著者 | Heli Ben-Hamu,Omri Puny,Itai Gat,Brian Karrer,Uriel Singer,Yaron Lipman |
発行日 | 2024-02-21 18:56:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google