Compositional Visual Generation with Composable Diffusion Models

要約

DALLE-2に代表される大規模なテキストガイド型拡散モデルは、自然言語による記述があれば、驚くほどフォトリアリスティックな画像を生成することができる。このようなモデルは非常に柔軟であるが、異なるオブジェクトの属性やオブジェクト間の関係を混同するなど、特定の概念の合成を理解するのに苦労している。本論文では、拡散モデルを用いた構図生成のための代替的な構造化アプローチを提案する。画像は、それぞれが画像の特定の構成要素をモデル化した拡散モデルの集合を合成することによって生成される。そのために、拡散モデルをエネルギーベースのモデルと解釈し、エネルギー関数で定義されるデータ分布を明示的に結合することができる。提案手法は、テスト時に学習時よりも大幅に複雑なシーンを生成することができ、文章記述、物体関係、人間の顔属性を構成し、さらに実世界ではほとんど見られない新しい組み合わせに汎化することができる。さらに、本アプローチを用いて、事前に学習したテキストガイド拡散モデルを構成し、DALLE-2では困難とされていた特定のオブジェクト属性の結合を含む、入力記述に記述されたすべての詳細を含む写実的な画像を生成する方法を説明します。これらの結果は、視覚的生成のための構造化汎化を促進する提案手法の有効性を指し示しています。プロジェクトページ: https://energy-based-model.github.io/Compositional-Visual-Generation-with-Composable-Diffusion-Models/

要約(オリジナル)

Large text-guided diffusion models, such as DALLE-2, are able to generate stunning photorealistic images given natural language descriptions. While such models are highly flexible, they struggle to understand the composition of certain concepts, such as confusing the attributes of different objects or relations between objects. In this paper, we propose an alternative structured approach for compositional generation using diffusion models. An image is generated by composing a set of diffusion models, with each of them modeling a certain component of the image. To do this, we interpret diffusion models as energy-based models in which the data distributions defined by the energy functions may be explicitly combined. The proposed method can generate scenes at test time that are substantially more complex than those seen in training, composing sentence descriptions, object relations, human facial attributes, and even generalizing to new combinations that are rarely seen in the real world. We further illustrate how our approach may be used to compose pre-trained text-guided diffusion models and generate photorealistic images containing all the details described in the input descriptions, including the binding of certain object attributes that have been shown difficult for DALLE-2. These results point to the effectiveness of the proposed method in promoting structured generalization for visual generation. Project page: https://energy-based-model.github.io/Compositional-Visual-Generation-with-Composable-Diffusion-Models/

arxiv情報

著者 Nan Liu,Shuang Li,Yilun Du,Antonio Torralba,Joshua B. Tenenbaum
発行日 2022-06-08 21:45:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク