Accelerate High-Quality Diffusion Models with Inner Loop Feedback

要約

拡散モデルの推論を加速するための新しいアプローチであるインナーループフィードバック(ILF)を提案します。
ILFは、特定の時間ステップで選択した拡散バックボーンブロックからの出力を活用することにより、除去プロセスの将来の機能を予測するために、軽量モジュールをトレーニングします。
このアプローチは、2つの重要な直感を活用します。
(1)隣接するタイムステップでの特定のブロックの出力は類似しており、(2)ステップの部分的な計算を実行すると、ステップを完全にスキップするよりもモデルの負担が低くなります。
フィードバックモジュール自体は、すべての設定がコピーされている拡散バックボーンから単純にブロックになる可能性があることがわかっているため、私たちの方法は非常に柔軟です。
拡散前方への影響は、ゼロ初期化から学習可能なスケーリング係数で和らげることができます。
蒸留損失を使用してこのモジュールをトレーニングします。
ただし、完全な拡散バックボーンが学生として機能する以前の作業とは異なり、モデルはバックボーンをフリーズし、フィードバックモジュールのみをトレーニングします。
拡散モデルを最適化するための多くの努力は、非常に少ないステップ(1〜4ステップ)で許容可能な画質を達成することに焦点を当てていますが、私たちの重点は、ランタイムを大幅に削減しながら、ベストケースの結果(通常は20ステップで達成される)と一致することです。
ILFはこのバランスを効果的に達成し、DITベースのPixart-AlphaおよびPixart-Sigmaを使用して、拡散トランス(DIT)とテキストから画像の生成を伴うクラス間生成の両方で強力なパフォーマンスを実証します。
ILFの1.7x-1.8xスピードアップの品質は、FID、クリップスコア、クリップ画質評価、イメージャーワード、および定性的比較によって確認されます。
プロジェクト情報は、https://mgwillia.github.io/ilfで入手できます。

要約(オリジナル)

We propose Inner Loop Feedback (ILF), a novel approach to accelerate diffusion models’ inference. ILF trains a lightweight module to predict future features in the denoising process by leveraging the outputs from a chosen diffusion backbone block at a given time step. This approach exploits two key intuitions; (1) the outputs of a given block at adjacent time steps are similar, and (2) performing partial computations for a step imposes a lower burden on the model than skipping the step entirely. Our method is highly flexible, since we find that the feedback module itself can simply be a block from the diffusion backbone, with all settings copied. Its influence on the diffusion forward can be tempered with a learnable scaling factor from zero initialization. We train this module using distillation losses; however, unlike some prior work where a full diffusion backbone serves as the student, our model freezes the backbone, training only the feedback module. While many efforts to optimize diffusion models focus on achieving acceptable image quality in extremely few steps (1-4 steps), our emphasis is on matching best case results (typically achieved in 20 steps) while significantly reducing runtime. ILF achieves this balance effectively, demonstrating strong performance for both class-to-image generation with diffusion transformer (DiT) and text-to-image generation with DiT-based PixArt-alpha and PixArt-sigma. The quality of ILF’s 1.7x-1.8x speedups are confirmed by FID, CLIP score, CLIP Image Quality Assessment, ImageReward, and qualitative comparisons. Project information is available at https://mgwillia.github.io/ilf.

arxiv情報

著者 Matthew Gwilliam,Han Cai,Di Wu,Abhinav Shrivastava,Zhiyu Cheng
発行日 2025-01-23 18:13:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク