Understanding Diffusion Models: A Unified Perspective

要約

拡散モデルは、生成モデルとして信じられないほどの能力を示しています。
実際、それらは Imagen や DALL-E 2 などのテキスト条件付き画像生成に関する現在の最先端モデルを強化しています。
ベースの視点。
最初に、変分拡散モデル (VDM) をマルコフ階層型変分オートエンコーダの特殊なケースとして導出します。ここで、3 つの主要な仮定により、扱いやすい計算と ELBO のスケーラブルな最適化が可能になります。
次に、VDM の最適化は、ニューラル ネットワークを学習して 3 つの潜在的な目的の 1 つを予測することに要約されることを証明します。
任意のノイズ レベルで入力します。
次に、スコア関数を学習することの意味を深く掘り下げ、Tweedie の公式を通じて、拡散モデルの変分的視点をスコアベースの生成モデリングの視点と明示的に結び付けます。
最後に、ガイダンスを介して拡散モデルを使用して条件付き分布を学習する方法について説明します。

要約(オリジナル)

Diffusion models have shown incredible capabilities as generative models; indeed, they power the current state-of-the-art models on text-conditioned image generation such as Imagen and DALL-E 2. In this work we review, demystify, and unify the understanding of diffusion models across both variational and score-based perspectives. We first derive Variational Diffusion Models (VDM) as a special case of a Markovian Hierarchical Variational Autoencoder, where three key assumptions enable tractable computation and scalable optimization of the ELBO. We then prove that optimizing a VDM boils down to learning a neural network to predict one of three potential objectives: the original source input from any arbitrary noisification of it, the original source noise from any arbitrarily noisified input, or the score function of a noisified input at any arbitrary noise level. We then dive deeper into what it means to learn the score function, and connect the variational perspective of a diffusion model explicitly with the Score-based Generative Modeling perspective through Tweedie’s Formula. Lastly, we cover how to learn a conditional distribution using diffusion models via guidance.

arxiv情報

著者 Calvin Luo
発行日 2022-08-25 09:55:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク