DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from Low-Dimensional Latents

要約

拡散確率モデルは、いくつかの競合する画像合成ベンチマークにおいて最先端の結果を生成することが示されているが、低次元で解釈可能な潜在的空間を持たず、生成に時間がかかるという問題がある。一方、変分オートエンコーダ(VAE)は、一般的に低次元の潜在空間を利用することができますが、サンプルの品質が低いという欠点があります。しかし,VAEは潜在空間を高次元階層化する必要があり,高精度なサンプルを生成することが困難である.我々は拡散モデルの枠組みの中でVAEを統合する新しい生成フレームワークであるDiffuseVAEを提示し、これを利用して拡散モデルのための新しい条件付きパラメータ化を設計する。その結果、拡散モデルに低次元VAE推論された潜在コードを装備しながら、サンプリング効率の点で無条件拡散モデルを改善できることを示す。さらに、提案モデルが高解像度のサンプルを生成できること、標準的なベンチマークにおいて最新モデルに匹敵する合成品質を示すことを示す。最後に、提案手法は制御可能な画像合成に利用可能であり、画像の超解像やノイズ除去などの下流タスクに対してもすぐに利用可能であることを示す。再現性のために、私たちのソースコードはthe \url{https://github.com/kpandey008/DiffuseVAE} で公開されています。

要約(オリジナル)

Diffusion Probabilistic models have been shown to generate state-of-the-art results on several competitive image synthesis benchmarks but lack a low-dimensional, interpretable latent space, and are slow at generation. On the other hand, Variational Autoencoders (VAEs) typically have access to a low-dimensional latent space but exhibit poor sample quality. Despite recent advances, VAEs usually require high-dimensional hierarchies of the latent codes to generate high-quality samples. We present DiffuseVAE, a novel generative framework that integrates VAE within a diffusion model framework, and leverage this to design a novel conditional parameterization for diffusion models. We show that the resulting model can improve upon the unconditional diffusion model in terms of sampling efficiency while also equipping diffusion models with the low-dimensional VAE inferred latent code. Furthermore, we show that the proposed model can generate high-resolution samples and exhibits synthesis quality comparable to state-of-the-art models on standard benchmarks. Lastly, we show that the proposed method can be used for controllable image synthesis and also exhibits out-of-the-box capabilities for downstream tasks like image super-resolution and denoising. For reproducibility, our source code is publicly available at \url{https://github.com/kpandey008/DiffuseVAE}.

arxiv情報

著者 Kushagra Pandey,Avideep Mukherjee,Piyush Rai,Abhishek Kumar
発行日 2022-08-08 16:29:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク