要約
レイアウトから画像への合成は、条件付き画像生成における新しい技術です。
ユーザーがシーン内のオブジェクトのレイアウトを細かく制御する必要がある複雑なシーンを生成することを目的としています。
しかし、意味的な一貫性 (例: 猫が花を見るかどうか) や物理的な一貫性 (例: 手とラケットの位置がずれてはいけない) など、オブジェクトの一貫性を制御することは依然として困難です。
この論文では、このタスクのオブジェクトの一貫性を導くために、効果的なグローバル セマンティック フュージョン (GSF) と自己類似性特徴拡張モジュールを備えた新しい拡散モデルを提案します。
意味的な一貫性については、画像キャプションには、画像内のオブジェクト内の意味的な関係を定義するための豊富な情報が含まれていると主張します。
キャプションと生成された画像の間のクロスアテンションを単に採用するだけで、関連性の高いレイアウト制限と意味論的一貫性を別々に扱うため、実験で示された満足のいかない結果につながるのではなく、レイアウト制限と意味論的一貫性の要件からの監視を融合する GSF を開発します。
そしてそれを利用して画像合成プロセスをガイドします。
さらに、物理的コヒーレンスを改善するために、ローカルコンテキストの物理的コヒーレンスを各ピクセルの生成プロセスに明示的に統合する自己相似性コヒーレンスアテンション(SCA)モジュールを開発しました。
具体的には、自己類似性マップを採用して一貫性制限をエンコードし、それを使用してテキスト埋め込みから一貫性のある特徴を抽出します。
自己類似性マップの視覚化を通じて、SCA の本質を探求し、その有効性が信頼性の高い物理的コヒーレンス パターンの捕捉だけでなく、複雑なテクスチャ生成の強化にもあることを明らかにしました。
広範な実験により、画像生成の品質と制御性の両方において、提案した方法の優位性が実証されました。
要約(オリジナル)
Layout-to-image synthesis is an emerging technique in conditional image generation. It aims to generate complex scenes, where users require fine control over the layout of the objects in a scene. However, it remains challenging to control the object coherence, including semantic coherence (e.g., the cat looks at the flowers or not) and physical coherence (e.g., the hand and the racket should not be misaligned). In this paper, we propose a novel diffusion model with effective global semantic fusion (GSF) and self-similarity feature enhancement modules to guide the object coherence for this task. For semantic coherence, we argue that the image caption contains rich information for defining the semantic relationship within the objects in the images. Instead of simply employing cross-attention between captions and generated images, which addresses the highly relevant layout restriction and semantic coherence separately and thus leads to unsatisfying results shown in our experiments, we develop GSF to fuse the supervision from the layout restriction and semantic coherence requirement and exploit it to guide the image synthesis process. Moreover, to improve the physical coherence, we develop a Self-similarity Coherence Attention (SCA) module to explicitly integrate local contextual physical coherence into each pixel’s generation process. Specifically, we adopt a self-similarity map to encode the coherence restrictions and employ it to extract coherent features from text embedding. Through visualization of our self-similarity map, we explore the essence of SCA, revealing that its effectiveness is not only in capturing reliable physical coherence patterns but also in enhancing complex texture generation. Extensive experiments demonstrate the superiority of our proposed method in both image generation quality and controllability.
arxiv情報
著者 | Yibin Wang,Weizhong Zhang,Jianwei Zheng,Cheng Jin |
発行日 | 2023-11-17 13:43:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google