要約
相対的および絶対的な位置マッチング(RAPM)を導入します。これは、単一のGPUで効率的にトレーニングできる高品質の生成をもたらす拡散蒸留方法です。
最近の拡散蒸留研究は、段階的整合性モデル(PCM)や分布マッチング蒸留(DMD2)の改善などの方法で、高解像度のテキストから画像の生成の優れた結果を達成しました。
ただし、これらの方法は一般に、トレーニング中に多くのGPU(例:〜8-64)と重要なバッチサイズ(例:〜128-2048)を必要とし、一部の研究者のリソースを超えたメモリと計算要件をもたらします。
RAPMは、1のバッチサイズで効果的なシングルGPU拡散蒸留トレーニングを提供します。新しい方法は、相対位置と絶対位置を一致させることにより、教師モデルのサンプリング軌跡を模倣しようとします。
相対的な位置の設計は、PCMに触発されています。
それに応じてRAPMで2つの判別器が導入され、1つは相対位置を一致させ、もう1つは絶対位置に導入されます。
Stabled Fusion(SD)V1.5およびSDXLの実験結果は、4つのタイムステップを持つRAPMが、非常に限られた計算リソースの下で1つのタイムステップを持つ最良の方法として同等のFIDスコアを生成することを示しています。
要約(オリジナル)
We introduce relative and absolute position matching (RAPM), a diffusion distillation method resulting in high quality generation that can be trained efficiently on a single GPU. Recent diffusion distillation research has achieved excellent results for high-resolution text-to-image generation with methods such as phased consistency models (PCM) and improved distribution matching distillation (DMD2). However, these methods generally require many GPUs (e.g.~8-64) and significant batchsizes (e.g.~128-2048) during training, resulting in memory and compute requirements that are beyond the resources of some researchers. RAPM provides effective single-GPU diffusion distillation training with a batchsize of 1. The new method attempts to mimic the sampling trajectories of the teacher model by matching the relative and absolute positions. The design of relative positions is inspired by PCM. Two discriminators are introduced accordingly in RAPM, one for matching relative positions and the other for absolute positions. Experimental results on StableDiffusion (SD) V1.5 and SDXL indicate that RAPM with 4 timesteps produces comparable FID scores as the best method with 1 timestep under very limited computational resources.
arxiv情報
著者 | Guoqiang Zhang,Kenta Niwa,J. P. Lewis,Cedric Mesnage,W. Bastiaan Kleijn |
発行日 | 2025-03-26 17:29:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google