SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form Layout-to-Image Generation

要約

Text-to-Image (T2I) 生成モデルは大幅に進歩しましたが、長くて複雑なテキストの説明であっても、詳細な制御を伝えるのは依然として困難です。
対照的に、ユーザー指定のレイアウトから現実的で複雑なシーン イメージを生成することを目的とした Layout-to-Image (L2I) 生成が注目を集めています。
しかし、既存の手法では、生成プロセスにおける条件制御のためにレイアウト情報をトークンや RGB 画像に変換するため、個々のインスタンスの空間的および意味的な制御性が不十分になります。
これらの制限に対処するために、レイアウトから導出された特徴マップをガイダンスとして採用する、新しい空間意味マップ ガイド付き (SSMG) 拡散モデルを提案します。
SSMG は、適切に設計された特徴マップにカプセル化された豊富な空間情報と意味論的な情報により、以前の作品と比較して、十分な空間的および意味論的な制御性を備えた優れた生成品質を実現します。
さらに、関係依存型アテンション (RSA) および位置依存型アテンション (LSA) メカニズムを提案します。
前者はシーン内の複数のオブジェクト間の関係をモデル化することを目的とし、後者はガイダンスに埋め込まれた空間情報に対するモデルの感度を高めるように設計されています。
広範な実験により、SSMG が非常に有望な結果を達成し、忠実性、多様性、制御性を含むさまざまな指標にわたって新しい最先端を確立することが実証されました。

要約(オリジナル)

Despite significant progress in Text-to-Image (T2I) generative models, even lengthy and complex text descriptions still struggle to convey detailed controls. In contrast, Layout-to-Image (L2I) generation, aiming to generate realistic and complex scene images from user-specified layouts, has risen to prominence. However, existing methods transform layout information into tokens or RGB images for conditional control in the generative process, leading to insufficient spatial and semantic controllability of individual instances. To address these limitations, we propose a novel Spatial-Semantic Map Guided (SSMG) diffusion model that adopts the feature map, derived from the layout, as guidance. Owing to rich spatial and semantic information encapsulated in well-designed feature maps, SSMG achieves superior generation quality with sufficient spatial and semantic controllability compared to previous works. Additionally, we propose the Relation-Sensitive Attention (RSA) and Location-Sensitive Attention (LSA) mechanisms. The former aims to model the relationships among multiple objects within scenes while the latter is designed to heighten the model’s sensitivity to the spatial information embedded in the guidance. Extensive experiments demonstrate that SSMG achieves highly promising results, setting a new state-of-the-art across a range of metrics encompassing fidelity, diversity, and controllability.

arxiv情報

著者 Chengyou Jia,Minnan Luo,Zhuohang Dang,Guang Dai,Xiaojun Chang,Mengmeng Wang,Jingdong Wang
発行日 2024-03-13 12:16:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク