SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis

要約

タイトル: SceneGenie:画像合成のためのシーングラフによる拡散モデルガイド

要約:
– テキスト条件に基づく画像生成は、生成的敵対的ネットワーク、そして最近は拡散モデルによって最近大きな進歩を遂げました。
– テキストプロンプトに依存した拡散モデルは、印象的で高品質の画像を生成したが、特定のオブジェクトのインスタンス数などの複雑なテキストプロンプトを正確に表現することはまだ難しいという問題があった。
– この制限に対処するために、提案モデルは、推論時に境界ボックスとセグメンテーションマップ情報を利用した、拡散モデル内のサンプリングプロセスに対する新しいガイダンスアプローチを提案する。
– CLIP埋め込みからの意味的な特徴を使用し、ジオメトリ制約を強制することで、サンプリングプロセスにおいてモデルをガイドすることにより、高解像度のシーンを正確に表現した画像を生成する。​​
– 境界ボックスとセグメンテーションマップ情報を取得するため、テキストプロンプトをシーングラフとして構造化し、ノードにCLIP埋め込みを付与する。
– 提案されたモデルは、2つの公開されているシーングラフからのイメージ生成のベンチマークで、シーングラフから画像への変換、およびテキストベースの拡散モデルを超え、様々なメトリックで最高のパフォーマンスを達成した。
– 結果は、拡散モデルサンプリングプロセスに境界ボックスとセグメンテーションマップガイダンスを組み込むことで、より正確なテキストからイメージへの生成に効果的であることを示している。

要約(オリジナル)

Text-conditioned image generation has made significant progress in recent years with generative adversarial networks and more recently, diffusion models. While diffusion models conditioned on text prompts have produced impressive and high-quality images, accurately representing complex text prompts such as the number of instances of a specific object remains challenging. To address this limitation, we propose a novel guidance approach for the sampling process in the diffusion model that leverages bounding box and segmentation map information at inference time without additional training data. Through a novel loss in the sampling process, our approach guides the model with semantic features from CLIP embeddings and enforces geometric constraints, leading to high-resolution images that accurately represent the scene. To obtain bounding box and segmentation map information, we structure the text prompt as a scene graph and enrich the nodes with CLIP embeddings. Our proposed model achieves state-of-the-art performance on two public benchmarks for image generation from scene graphs, surpassing both scene graph to image and text-based diffusion models in various metrics. Our results demonstrate the effectiveness of incorporating bounding box and segmentation map guidance in the diffusion model sampling process for more accurate text-to-image generation.

arxiv情報

著者 Azade Farshad,Yousef Yeganeh,Yu Chi,Chengzhi Shen,Björn Ommer,Nassir Navab
発行日 2023-04-28 00:14:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク