要約
拡散モデルは、高品質の画像を合成するための強力なアルゴリズムとして注目を集めています。
これらのアルゴリズムの中心となるのは拡散プロセスです。拡散プロセスは、熱力学からインスピレーションを得た方程式に従ってデータをノイズにマッピングし、パフォーマンスに大きな影響を与える可能性があります。
広く受け入れられている仮定は、拡散モデルの ELBO 目的はノイズ プロセスに対して不変であるということです (Kingma et al.,2021)。
この研究では、この仮定を払拭します。多変量学習適応ノイズ (MuLAN)、つまり画像全体に異なるレートでガウス ノイズを適用する学習拡散プロセスを提案します。
私たちの方法は、多変量ノイズ スケジュール、インスタンス条件付き拡散、補助変数の 3 つのコンポーネントで構成されており、以前の研究のように、学習目標がノイズ スケジュールの選択に対して不変ではなくなります。
私たちの研究はベイズ推論に基づいており、学習された拡散プロセスを近似変分事後分布として投影し、周辺尤度のより厳しい下限を生成します。
経験的に、MuLAN は、従来の拡散と比較して、CIFAR-10 および ImageNet における密度推定において新たな最先端技術を確立しました。
コードは https://github.com/s-sahoo/MuLAN で入手できます。
要約(オリジナル)
Diffusion models have gained traction as powerful algorithms for synthesizing high-quality images. Central to these algorithms is the diffusion process, which maps data to noise according to equations inspired by thermodynamics and can significantly impact performance. A widely held assumption is that the ELBO objective of a diffusion model is invariant to the noise process (Kingma et al.,2021). In this work, we dispel this assumption — we propose multivariate learned adaptive noise (MuLAN), a learned diffusion process that applies Gaussian noise at different rates across an image. Our method consists of three components — a multivariate noise schedule, instance-conditional diffusion, and auxiliary variables — which ensure that the learning objective is no longer invariant to the choice of the noise schedule as in previous works. Our work is grounded in Bayesian inference and casts the learned diffusion process as an approximate variational posterior that yields a tighter lower bound on marginal likelihood. Empirically, MuLAN sets a new state-of-the-art in density estimation on CIFAR-10 and ImageNet compared to classical diffusion. Code is available at https://github.com/s-sahoo/MuLAN
arxiv情報
著者 | Subham Sekhar Sahoo,Aaron Gokaslan,Chris De Sa,Volodymyr Kuleshov |
発行日 | 2023-12-20 18:00:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google