Exploring Compositional Visual Generation with Latent Classifier Guidance

要約

タイトル: 潜在的な分類器ガイダンスを用いた合成的な視覚生成の探索
要約:
– 拡散確率モデルは、画像生成と操作の分野で大きな成功を収めている
– この論文では、拡散モデルと分類器ガイダンスを潜在的な意味空間で組成的な視覚タスクに用いる新しいパラダイムを探索する
– 具体的には、潜在的な拡散モデルと補助的な潜在的な分類器を訓練し、意味的な潜在空間を持つ任意の事前訓練された生成モデルの潜在表現生成を非線形にナビゲートするために使用する
– 我々は、この分類器による条件付けによって証明される条件付き対数確率の下限を最大化することができることを示す
– 操作中に元の意味を保持するために、新しいガイダンストームを導入することを提案する。このガイダンストームは、組み合わせられるために重要であることを示す
– 追加の仮定により、非線形操作が単純な潜在数学的手法に簡約できることを示す
– この潜在的な分類器ガイダンスに基づくパラダイムは、事前に訓練された生成モデルに対して開放的であり、実際のおよび合成画像の両方に対して競合力のある結果を示す
– 我々の発見は、他の強力な競合手法の存在に関わらず、潜在的な分類器ガイダンスは有望なアプローチであり、さらに探索する価値があることを示唆している。

要約(オリジナル)

Diffusion probabilistic models have achieved enormous success in the field of image generation and manipulation. In this paper, we explore a novel paradigm of using the diffusion model and classifier guidance in the latent semantic space for compositional visual tasks. linear fashion. Specifically, we train latent diffusion models and auxiliary latent classifiers to facilitate non-linear navigation of latent representation generation for any pre-trained generative model with a semantic latent space. We demonstrate that such conditional generation achieved by latent classifier guidance provably maximizes a lower bound of the conditional log probability during training. To maintain the original semantics during manipulation, we introduce a new guidance term, which we show is crucial for achieving compositionality. With additional assumptions, we show that the non-linear manipulation reduces to a simple latent arithmetic approach. We show that this paradigm based on latent classifier guidance is agnostic to pre-trained generative models, and present competitive results for both image generation and sequential manipulation of real and synthetic images. Our findings suggest that latent classifier guidance is a promising approach that merits further exploration, even in the presence of other strong competing methods.

arxiv情報

著者 Changhao Shi,Haomiao Ni,Kai Li,Shaobo Han,Mingfu Liang,Martin Renqiang Min
発行日 2023-04-25 03:02:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク