要約
拡散モデルは、真のデータ分布を近似するために将来のノイズプロセスを逆にすることにより、優れた画像生成を達成しました。
トレーニング中、これらのモデルは、単一のフォワードパスで真のサンプルのnoisedバージョンからの拡散スコアを予測しますが、推論にはホワイトノイズから始まる反復的な除去が必要です。
このトレーニングの推論の発散は、潜在的な予測バイアスと累積エラーの蓄積により、推論とトレーニングデータ分布の間のアラインメントを妨げます。
この問題に対処するために、最適化中に推論プロセスを刺激し、最終的な出力を敵対的な監督によるトレーニングデータに合わせて整列させることにより、敵対的拡散チューニング(ADT)と呼ばれる直感的で効果的な微調整フレームワークを提案します。
具体的には、堅牢な敵対的なトレーニングを実現するために、ADTは、固定された事前に訓練されたバックボーンと軽量のトレーニング可能なパラメーターを備えたシャムネットワークの識別器を特徴としており、画像から画像間サンプリング戦略を組み込んで識別障害を滑らかにし、元の拡散損失を保持して識別装置のハッキングを防ぎます。
さらに、メモリの過負荷や勾配爆発を伴うことなく、推論パスに沿って後ろ向きの勾配の後方を吹き付けるパスを慎重に制約します。
最後に、安定した拡散モデル(V1.5、XL、およびV3)に関する広範な実験は、ADTが分布のアラインメントと画質の両方を大幅に改善することを示しています。
要約(オリジナル)
Diffusion models have achieved outstanding image generation by reversing a forward noising process to approximate true data distributions. During training, these models predict diffusion scores from noised versions of true samples in a single forward pass, while inference requires iterative denoising starting from white noise. This training-inference divergences hinder the alignment between inference and training data distributions, due to potential prediction biases and cumulative error accumulation. To address this problem, we propose an intuitive but effective fine-tuning framework, called Adversarial Diffusion Tuning (ADT), by stimulating the inference process during optimization and aligning the final outputs with training data by adversarial supervision. Specifically, to achieve robust adversarial training, ADT features a siamese-network discriminator with a fixed pre-trained backbone and lightweight trainable parameters, incorporates an image-to-image sampling strategy to smooth discriminative difficulties, and preserves the original diffusion loss to prevent discriminator hacking. In addition, we carefully constrain the backward-flowing path for back-propagating gradients along the inference path without incurring memory overload or gradient explosion. Finally, extensive experiments on Stable Diffusion models (v1.5, XL, and v3), demonstrate that ADT significantly improves both distribution alignment and image quality.
arxiv情報
著者 | Dazhong Shen,Guanglu Song,Yi Zhang,Bingqi Ma,Lujundong Li,Dongzhi Jiang,Zhuofan Zong,Yu Liu |
発行日 | 2025-04-15 17:37:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google