要約
拡散確率モデル(DPMS)は画像生成に顕著な可能性を示していますが、それらのサンプリング効率は、多数の除去ステップの必要性によって妨げられています。
ほとんどの既存のソリューションは、高速ODEソルバーを提案することにより、サンプリングプロセスを加速します。
ただし、ODEソルバーの避けられない離散化エラーは、関数評価の数(NFE)が少ない場合に大幅に拡大されます。
この作業では、既存の高速ODEソルバーがより少ないNFEで動作できるようにする新しいトレーニングフリーで直交のタイムステップスキップ戦略であるPFDIFFを提案します。
具体的には、PFDIFFは当初、過去の時間ステップからスコア交換を使用して、「スプリングボード」を予測します。
その後、Nesterov Momentumに触発された先見の明の更新とともに、これを「Springboard」とともに使用して、現在の中間状態を迅速に更新します。
このアプローチは、1次ODEソルバーに固有の離散化エラーを修正しながら、不必要なNFEを効果的に削減します。
実験結果は、PFDIFFがさまざまな事前に訓練されたDPMにわたって柔軟な適用性を示し、特に条件付きDPMSに優れており、以前の最先端のトレーニングのない方法を上回っていることを示しています。
たとえば、DDIMをベースラインとして使用して、Imagenet 64×64でDDIMを備えた138.81 FIDと比較して16.46 FID(4 NFE)を達成しました。
コードは\ url {https://github.com/onefly123/pfdiff}で入手できます。
要約(オリジナル)
Diffusion Probabilistic Models (DPMs) have shown remarkable potential in image generation, but their sampling efficiency is hindered by the need for numerous denoising steps. Most existing solutions accelerate the sampling process by proposing fast ODE solvers. However, the inevitable discretization errors of the ODE solvers are significantly magnified when the number of function evaluations (NFE) is fewer. In this work, we propose PFDiff, a novel training-free and orthogonal timestep-skipping strategy, which enables existing fast ODE solvers to operate with fewer NFE. Specifically, PFDiff initially utilizes score replacement from past time steps to predict a “springboard’. Subsequently, it employs this “springboard’ along with foresight updates inspired by Nesterov momentum to rapidly update current intermediate states. This approach effectively reduces unnecessary NFE while correcting for discretization errors inherent in first-order ODE solvers. Experimental results demonstrate that PFDiff exhibits flexible applicability across various pre-trained DPMs, particularly excelling in conditional DPMs and surpassing previous state-of-the-art training-free methods. For instance, using DDIM as a baseline, we achieved 16.46 FID (4 NFE) compared to 138.81 FID with DDIM on ImageNet 64×64 with classifier guidance, and 13.06 FID (10 NFE) on Stable Diffusion with 7.5 guidance scale. Code is available at \url{https://github.com/onefly123/PFDiff}.
arxiv情報
著者 | Guangyi Wang,Yuren Cai,Lijiang Li,Wei Peng,Songzhi Su |
発行日 | 2025-02-20 13:21:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google