Interpreting and Improving Diffusion Models from an Optimization Perspective

要約

ノイズ除去は直感的に射影と関連している。実際、多様体仮説の下では、ランダムノイズを加えることは直交摂動とほぼ等価である。したがって、ノイズ除去を学習することは、近似的に射影を学習することになる。本論文では、この観察を利用して、ノイズ除去拡散モデルをユークリッド距離関数に適用した近似勾配降下と解釈する。次に、ノイズ除去器の投影誤差に関する単純な仮定の下で、DDIMサンプラーの収束解析を行う。最後に、我々の理論結果からの洞察を用いて、DDIMを一般化した新しい勾配推定サンプラーを提案する。わずか5-10回の関数評価で、我々のサンプラーは、事前学習されたCIFAR-10とCelebAモデルにおいて、最先端のFIDスコアを達成し、潜在拡散モデルにおいて高品質なサンプルを生成することができる。

要約(オリジナル)

Denoising is intuitively related to projection. Indeed, under the manifold hypothesis, adding random noise is approximately equivalent to orthogonal perturbation. Hence, learning to denoise is approximately learning to project. In this paper, we use this observation to interpret denoising diffusion models as approximate gradient descent applied to the Euclidean distance function. We then provide straight-forward convergence analysis of the DDIM sampler under simple assumptions on the projection error of the denoiser. Finally, we propose a new gradient-estimation sampler, generalizing DDIM using insights from our theoretical results. In as few as 5-10 function evaluations, our sampler achieves state-of-the-art FID scores on pretrained CIFAR-10 and CelebA models and can generate high quality samples on latent diffusion models.

arxiv情報

著者 Frank Permenter,Chenyang Yuan
発行日 2024-06-03 14:18:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, math.OC, stat.ML パーマリンク