Accelerate High-Quality Diffusion Models with Inner Loop Feedback

要約

私たちは、拡散モデルの推論を加速する新しいアプローチであるインナー ループ フィードバック (ILF) を提案します。
ILF は、特定のタイム ステップで選択された拡散バックボーン ブロックからの出力を利用して、ノイズ除去プロセスにおける将来の特徴を予測する軽量モジュールをトレーニングします。
このアプローチは 2 つの重要な直感を活用します。
(1) 隣接するタイム ステップでの特定のブロックの出力は類似しており、(2) ステップの部分的な計算を実行する方が、ステップを完全にスキップするよりもモデルにかかる負担が少なくなります。
私たちの方法は非常に柔軟です。なぜなら、フィードバック モジュール自体は、すべての設定がコピーされた、単純に拡散バックボーンからのブロックであり得ることがわかっているからです。
前方拡散への影響は、ゼロ初期化から学習可能なスケーリング係数を使用して緩和できます。
蒸留損失を使用してこのモジュールをトレーニングします。
ただし、完全な拡散バックボーンがスチューデントとして機能する以前の研究とは異なり、私たちのモデルはバックボーンを凍結し、フィードバック モジュールのみをトレーニングします。
拡散モデルを最適化する多くの取り組みは、非常に少ないステップ (1 ~ 4 ステップ) で許容可能な画質を達成することに重点を置いていますが、私たちは実行時間を大幅に短縮しながら、最良の場合の結果 (通常は 20 ステップで達成) を一致させることに重点を置いています。
ILF はこのバランスを効果的に実現し、拡散トランス (DiT) を使用したクラスから画像への生成と、DiT ベースの PixArt-alpha および PixArt-sigma を使用したテキストから画像への生成の両方で優れたパフォーマンスを示します。
ILF の 1.7 倍から 1.8 倍のスピードアップの品質は、FID、CLIP スコア、CLIP 画質評価、ImageReward、および定性的比較によって確認されます。

要約(オリジナル)

We propose Inner Loop Feedback (ILF), a novel approach to accelerate diffusion models’ inference. ILF trains a lightweight module to predict future features in the denoising process by leveraging the outputs from a chosen diffusion backbone block at a given time step. This approach exploits two key intuitions; (1) the outputs of a given block at adjacent time steps are similar, and (2) performing partial computations for a step imposes a lower burden on the model than skipping the step entirely. Our method is highly flexible, since we find that the feedback module itself can simply be a block from the diffusion backbone, with all settings copied. Its influence on the diffusion forward can be tempered with a learnable scaling factor from zero initialization. We train this module using distillation losses; however, unlike some prior work where a full diffusion backbone serves as the student, our model freezes the backbone, training only the feedback module. While many efforts to optimize diffusion models focus on achieving acceptable image quality in extremely few steps (1-4 steps), our emphasis is on matching best case results (typically achieved in 20 steps) while significantly reducing runtime. ILF achieves this balance effectively, demonstrating strong performance for both class-to-image generation with diffusion transformer (DiT) and text-to-image generation with DiT-based PixArt-alpha and PixArt-sigma. The quality of ILF’s 1.7x-1.8x speedups are confirmed by FID, CLIP score, CLIP Image Quality Assessment, ImageReward, and qualitative comparisons.

arxiv情報

著者 Matthew Gwilliam,Han Cai,Di Wu,Abhinav Shrivastava,Zhiyu Cheng
発行日 2025-01-22 18:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク