Interpreting and Improving Diffusion Models Using the Euclidean Distance Function

要約

ノイズ除去は直感的に射影と関連している。実際、多様体仮説の下では、ランダムノイズを加えることは直交摂動とほぼ等価である。従って、ノイズ除去の学習は投影の学習とほぼ同じである。本論文では、この観察を用いて、ノイズ除去拡散モデルをユークリッド距離関数に適用される近似勾配降下として再解釈する。そして、ノイズ除去器の投影誤差に関する単純な仮定の下で、DDIMサンプラーの収束解析を行う。最後に、我々の理論結果からの洞察を用いて、DDIMの2つの単純な修正に基づく新しいサンプラーを提案する。わずか5-10回の関数評価で、我々のサンプラーは、事前学習されたCIFAR-10とCelebAモデルにおいて最先端のFIDスコアを達成し、潜在拡散モデルにおいて高品質なサンプルを生成することができる。

要約(オリジナル)

Denoising is intuitively related to projection. Indeed, under the manifold hypothesis, adding random noise is approximately equivalent to orthogonal perturbation. Hence, learning to denoise is approximately learning to project. In this paper, we use this observation to reinterpret denoising diffusion models as approximate gradient descent applied to the Euclidean distance function. We then provide straight-forward convergence analysis of the DDIM sampler under simple assumptions on the projection-error of the denoiser. Finally, we propose a new sampler based on two simple modifications to DDIM using insights from our theoretical results. In as few as 5-10 function evaluations, our sampler achieves state-of-the-art FID scores on pretrained CIFAR-10 and CelebA models and can generate high quality samples on latent diffusion models.

arxiv情報

著者 Frank Permenter,Chenyang Yuan
発行日 2023-12-04 17:00:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, math.OC, stat.ML パーマリンク