Image Synthesis with Graph Conditioning: CLIP-Guided Diffusion Models for Scene Graphs

要約

生成モデルの進歩により、特定の構造ガイドラインを遵守しながら画像を生成することに大きな関心が集まっています。
シーン グラフからイメージの生成は、指定されたシーン グラフと一致するイメージを生成するタスクの 1 つです。
ただし、ビジュアル シーンの複雑さにより、シーン グラフ内の指定された関係に基づいてオブジェクトを正確に位置合わせすることが困難になります。
既存の方法では、最初にシーンのレイアウトを予測し、敵対的トレーニングを使用してこれらのレイアウトから画像を生成することで、このタスクにアプローチします。
この研究では、中間レイアウトを予測する必要をなくす、シーン グラフから画像を生成する新しいアプローチを紹介します。
事前トレーニングされたテキストから画像への拡散モデルと CLIP ガイダンスを活用して、グラフの知識を画像に変換します。
これに向けて、まず、GAN ベースのトレーニングを使用してグラフ エンコーダーを事前トレーニングし、グラフの特徴を対応する画像の CLIP 特徴と位置合わせします。
さらに、グラフの特徴を、特定のシーン グラフに存在するオブジェクト ラベルの CLIP 埋め込みと融合して、グラフの一貫性のある CLIP ガイド付きコンディショニング信号を作成します。
条件付け入力では、オブジェクトの埋め込みによって画像の大まかな構造が提供され、グラフの特徴によってオブジェクト間の関係に基づいた構造の調整が行われます。
最後に、再構築と CLIP アライメント損失を伴うグラフの一貫した調整信号を使用して、事前トレーニングされた拡散モデルを微調整します。
綿密な実験により、COCO スタッフと Visual Genome データセットの標準ベンチマークにおいて、私たちの方法が既存の方法よりも優れていることが明らかになりました。

要約(オリジナル)

Advancements in generative models have sparked significant interest in generating images while adhering to specific structural guidelines. Scene graph to image generation is one such task of generating images which are consistent with the given scene graph. However, the complexity of visual scenes poses a challenge in accurately aligning objects based on specified relations within the scene graph. Existing methods approach this task by first predicting a scene layout and generating images from these layouts using adversarial training. In this work, we introduce a novel approach to generate images from scene graphs which eliminates the need of predicting intermediate layouts. We leverage pre-trained text-to-image diffusion models and CLIP guidance to translate graph knowledge into images. Towards this, we first pre-train our graph encoder to align graph features with CLIP features of corresponding images using a GAN based training. Further, we fuse the graph features with CLIP embedding of object labels present in the given scene graph to create a graph consistent CLIP guided conditioning signal. In the conditioning input, object embeddings provide coarse structure of the image and graph features provide structural alignment based on relationships among objects. Finally, we fine tune a pre-trained diffusion model with the graph consistent conditioning signal with reconstruction and CLIP alignment loss. Elaborate experiments reveal that our method outperforms existing methods on standard benchmarks of COCO-stuff and Visual Genome dataset.

arxiv情報

著者 Rameshwar Mishra,A V Subramanyam
発行日 2024-01-26 12:02:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク