PFDiff: Training-free Acceleration of Diffusion Models through the Gradient Guidance of Past and Future

要約

拡散確率モデル (DPM) は画像生成において顕著な可能性を示していますが、そのサンプリング効率は多数のノイズ除去ステップの必要性によって妨げられています。
既存のソリューションのほとんどは、高速 ODE ソルバーを提案することでサンプリング プロセスを高速化します。
ただし、関数評価 (NFE) の数が少ない場合、ODE ソルバーの避けられない離散化誤差が大幅に増大します。
この研究では、既存の高速 ODE ソルバーがより少ない NFE で動作できるようにする、新しいトレーニング不要の直交タイムステップ スキップ戦略である PFDiff を提案します。
2 つの重要な観察結果に基づいています。1 つは、既存の ODE ソルバーのノイズ除去プロセス中に過度に大きくないタイム ステップ サイズでのモデルの出力の顕著な類似性、もう 1 つはノイズ除去プロセスと SGD の間の高い類似性です。
PFDiff は、過去のタイム ステップからの勾配置換と Nesterov 運動量に触発された先見更新を採用することにより、中間状態を迅速に更新し、それによって不必要な NFE を削減すると同時に、1 次 ODE ソルバーに固有の離散化エラーを修正します。
実験結果は、PFDiff がさまざまな事前トレーニング済み DPM にわたって柔軟な適用性を示し、特に条件付き DPM で優れており、以前の最先端のトレーニング不要の手法を上回っていることを示しています。
たとえば、ベースラインとして DDIM を使用すると、分類器ガイダンスを使用した ImageNet 64×64 上の DDIM では 138.81 FID と比較して、16.46 FID (4 NFE) を達成し、7.5 ガイダンス スケールの安定拡散では 13.06 FID (10 NFE) を達成しました。

要約(オリジナル)

Diffusion Probabilistic Models (DPMs) have shown remarkable potential in image generation, but their sampling efficiency is hindered by the need for numerous denoising steps. Most existing solutions accelerate the sampling process by proposing fast ODE solvers. However, the inevitable discretization errors of the ODE solvers are significantly magnified when the number of function evaluations (NFE) is fewer. In this work, we propose PFDiff, a novel training-free and orthogonal timestep-skipping strategy, which enables existing fast ODE solvers to operate with fewer NFE. Based on two key observations: a significant similarity in the model’s outputs at time step size that is not excessively large during the denoising process of existing ODE solvers, and a high resemblance between the denoising process and SGD. PFDiff, by employing gradient replacement from past time steps and foresight updates inspired by Nesterov momentum, rapidly updates intermediate states, thereby reducing unnecessary NFE while correcting for discretization errors inherent in first-order ODE solvers. Experimental results demonstrate that PFDiff exhibits flexible applicability across various pre-trained DPMs, particularly excelling in conditional DPMs and surpassing previous state-of-the-art training-free methods. For instance, using DDIM as a baseline, we achieved 16.46 FID (4 NFE) compared to 138.81 FID with DDIM on ImageNet 64×64 with classifier guidance, and 13.06 FID (10 NFE) on Stable Diffusion with 7.5 guidance scale.

arxiv情報

著者 Guangyi Wang,Yuren Cai,Lijiang Li,Wei Peng,Songzhi Su
発行日 2024-08-16 16:12:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク