要約
拡散モデルは大規模な生成画像モデルの分野を支配しており、主な例として安定拡散と DALL-E 3 が広く採用されています。
これらのモデルは、膨大な数の画像とキャプションのペアに対してテキスト条件付き生成を実行するようにトレーニングされており、その副産物として、自然な画像統計に関する一般的な知識を獲得しています。
ただし、制約されたサンプリングのタスクに直面した場合、たとえば、
既知の左半分に条件付けされた画像の右半分を生成する場合、これらのモデルを適用することは繊細で時間のかかるプロセスであり、以前に提案されたアルゴリズムは高価な反復操作に依存しており、通常はテキストベースの推論よりも数桁遅くなります。
画像条件付き生成は、キャプションと画像を結び付ける学習が困難な意味論的な知識にあまり依存せず、代わりに画像ピクセル間の低レベルの相関によって達成可能であるため、これは直観に反します。
実際には、逆モデルは、逆問題ごとに個別にトレーニングまたは調整されます。
トレーニング中に追加条件として画像の一部を提供することで、現実的な設定での適用を可能にします。
しかし、我々は、これは必要ではないと主張し、モデル全体で高価な逆伝播操作を必要とせず、現状と同等の結果を生み出す、事前にトレーニングされた大規模な拡散モデル (安定拡散) における高速制約付きサンプリングのアルゴリズムを提案します。
-art \emph{チューニングされた} モデル。
私たちの方法は、制約の下でのサンプリングに対する新しい最適化の観点に基づいており、以前はバックプロパゲーションを使用して計算され、大幅な速度向上をもたらした高価な勾配の数値近似を採用しています。
要約(オリジナル)
Diffusion models have dominated the field of large, generative image models, with the prime examples of Stable Diffusion and DALL-E 3 being widely adopted. These models have been trained to perform text-conditioned generation on vast numbers of image-caption pairs and as a byproduct, have acquired general knowledge about natural image statistics. However, when confronted with the task of constrained sampling, e.g. generating the right half of an image conditioned on the known left half, applying these models is a delicate and slow process, with previously proposed algorithms relying on expensive iterative operations that are usually orders of magnitude slower than text-based inference. This is counter-intuitive, as image-conditioned generation should rely less on the difficult-to-learn semantic knowledge that links captions and imagery, and should instead be achievable by lower-level correlations among image pixels. In practice, inverse models are trained or tuned separately for each inverse problem, e.g. by providing parts of images during training as an additional condition, to allow their application in realistic settings. However, we argue that this is not necessary and propose an algorithm for fast-constrained sampling in large pre-trained diffusion models (Stable Diffusion) that requires no expensive backpropagation operations through the model and produces results comparable even to the state-of-the-art \emph{tuned} models. Our method is based on a novel optimization perspective to sampling under constraints and employs a numerical approximation to the expensive gradients, previously computed using backpropagation, incurring significant speed-ups.
arxiv情報
著者 | Alexandros Graikos,Nebojsa Jojic,Dimitris Samaras |
発行日 | 2024-10-24 14:52:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google