要約
最高の知覚品質を達成するために、最先端の拡散モデルは、最尤法や証拠下限 (ELBO) の目標とは大きく異なる目標を使用して最適化されています。
この研究では、拡散モデルの目的が実際には ELBO と密接に関連していることを明らかにします。
具体的には、一般的に使用される拡散モデルの目的はすべて、さまざまなノイズ レベルにわたる ELBO の重み付き積分に相当し、重み付けは使用される特定の目的に依存することを示します。
単調な重み付けの条件下では、関係はさらに緊密になります。つまり、拡散目標は ELBO と等しくなり、単純なデータ拡張、つまりガウス ノイズ摂動と組み合わせられます。
我々は、この条件が多くの最先端の拡散モデルに当てはまることを示します。
実験では、新しい単調重み付けを探索し、その有効性を実証し、高解像度の ImageNet ベンチマークで最先端の FID スコアを達成しました。
要約(オリジナル)
To achieve the highest perceptual quality, state-of-the-art diffusion models are optimized with objectives that look very different from the maximum likelihood and the Evidence Lower Bound (ELBO) objectives. In this work, we reveal that diffusion model objectives are actually closely related to the ELBO. Specifically, we show that all commonly used diffusion model objectives equate to a weighted integral of ELBOs over different noise levels, where the weighting depends on the specific objective used. Under the condition of monotonic weighting, the connection is even closer: the diffusion objective then equals the ELBO, combined with simple data augmentation, namely Gaussian noise perturbation. We show that this condition holds for a number of state-of-the-art diffusion models. In experiments, we explore new monotonic weightings and demonstrate their effectiveness, achieving state-of-the-art FID scores on the high-resolution ImageNet benchmark.
arxiv情報
著者 | Diederik P. Kingma,Ruiqi Gao |
発行日 | 2023-08-01 17:57:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google