Image Generation with Multimodal Priors using Denoising Diffusion Probabilistic Models

要約

マルチモーダル事前画像の下での画像合成は、近年ますます注目を集めている有用で挑戦的なタスクです。
このタスクを達成するために生成モデルを使用する際の主な課題は、すべてのモダリティ(つまり事前)と対応する出力を含むペアのデータがないことです。
最近の研究では、変分オートエンコーダー(VAE)モデルが、この課題に対処するために弱く監視された方法でトレーニングされました。
通常、VAEの生成能力は限られているため、この方法では複雑な分布に属する画像を合成することは困難です。
この目的のために、我々は、マルチモデルの事前分布の下で画像を合成するためのノイズ除去拡散確率モデルに基づく解決策を提案する。
拡散モデルの各時間ステップにわたる分布がガウス分布であるという事実に基づいて、この作業では、与えられたモダリティに対応する画像を生成するための閉形式の式が存在することを示します。
提案されたソリューションは、すべてのモダリティに対して明示的な再トレーニングを必要とせず、個々のモダリティの出力を活用して、さまざまな制約に従ってリアルな画像を生成できます。
私たちは、2つの実際のデータセットについて調査を行い、私たちのアプローチの有効性を実証します

要約(オリジナル)

Image synthesis under multi-modal priors is a useful and challenging task that has received increasing attention in recent years. A major challenge in using generative models to accomplish this task is the lack of paired data containing all modalities (i.e. priors) and corresponding outputs. In recent work, a variational auto-encoder (VAE) model was trained in a weakly supervised manner to address this challenge. Since the generative power of VAEs is usually limited, it is difficult for this method to synthesize images belonging to complex distributions. To this end, we propose a solution based on a denoising diffusion probabilistic models to synthesise images under multi-model priors. Based on the fact that the distribution over each time step in the diffusion model is Gaussian, in this work we show that there exists a closed-form expression to the generate the image corresponds to the given modalities. The proposed solution does not require explicit retraining for all modalities and can leverage the outputs of individual modalities to generate realistic images according to different constraints. We conduct studies on two real-world datasets to demonstrate the effectiveness of our approach

arxiv情報

著者 Nithin Gopalakrishnan Nair,Wele Gedara Chaminda Bandara,Vishal M Patel
発行日 2022-06-10 12:23:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク