Variational Diffusion Auto-encoder: Deep Latent Variable Model with Unconditional Diffusion Prior

要約

タイトル:変分拡散自己符号化器:非条件的拡散先行の深層潜在変数モデル

要約:
– VAE(Variational Auto-Encoder)は、深層生成モデリングの最も可能性のある手法の1つである。
– しかしながら、VAEで生成される画像は、条件付きデータ分布 $ p(\textbf{x} | \textbf{z})$が等方的なガウス分布で近似されるという非常に現実的でないモデリング仮定により、ぼやけてしまうという問題がある。
– 本研究では、拡散モデルを組み込むことで、条件付きデータ分布 $p(\textbf{x} | \textbf{z})$をモデル化する原理的なアプローチを提案している。
– VAEのような深層潜在変数モデルを作成することができ、$ p(\textbf{x} | \textbf{z}) $についてガウス分布の仮定を行うことなく、さらにデコーダーネットワークをトレーニングすることなく、トレーニングされたエンコーダーと非条件的拡散モデルをBayesのスコア関数のために組み合わせることができる。
– 本手法は、 $ p(\textbf{x} | \textbf{z}) $のパラメトリックな形式に強い仮定をする必要がないため、VAEの性能を大幅に向上させることができる。

要約(オリジナル)

Variational auto-encoders (VAEs) are one of the most popular approaches to deep generative modeling. Despite their success, images generated by VAEs are known to suffer from blurriness, due to a highly unrealistic modeling assumption that the conditional data distribution $ p(\textbf{x} | \textbf{z})$ can be approximated as an isotropic Gaussian. In this work we introduce a principled approach to modeling the conditional data distribution $p(\textbf{x} | \textbf{z})$ by incorporating a diffusion model. We show that it is possible to create a VAE-like deep latent variable model without making the Gaussian assumption on $ p(\textbf{x} | \textbf{z}) $ or even training a decoder network. A trained encoder and an unconditional diffusion model can be combined via Bayes’ rule for score functions to obtain an expressive model for $ p(\textbf{x} | \textbf{z}) $. Our approach avoids making strong assumptions on the parametric form of $ p(\textbf{x} | \textbf{z}) $, and thus allows to significantly improve the performance of VAEs.

arxiv情報

著者 Georgios Batzolis,Jan Stanczuk,Carola-Bibiane Schönlieb
発行日 2023-04-24 14:44:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク