Training-Free Layout Control with Cross-Attention Guidance



– 最近の拡散ベースのジェネレータは、テキストのプロンプトだけで高品質な画像を生成できるようになりました。しかし、そのようなジェネレータは、構成物の空間レイアウトを指定する指示を正しく解釈することができません。
– 我々は、トレーニングや画像ジェネレータのファインチューニングを必要とせずに、堅牢なレイアウト制御を実現できる簡単なアプローチを提案しています。我々の技術であるレイアウトガイダンスは、モデルがテキスト情報と視覚情報をインタフェースするために使用するクロスアテンションレイヤを操作し、ユーザー指定のレイアウトに基づいて再構成を望ましい方向に導きます。
– どのようにして最良の注意をガイドするかを決定するために、画像生成時の異なるアテンションマップの役割を研究し、フォワードとバックワードのガイダンスの2つの代替戦略で実験を行いました。
– 我々は、いくつかの実験で我々の方法を定量的・定性的に評価して、その有効性を検証しました。さらに、与えられた実画像のレイアウトとコンテキストを編集するタスクにレイアウトガイダンスを拡張することで、その汎用性を示しました。


Recent diffusion-based generators can produce high-quality images based only on textual prompts. However, they do not correctly interpret instructions that specify the spatial layout of the composition. We propose a simple approach that can achieve robust layout control without requiring training or fine-tuning the image generator. Our technique, which we call layout guidance, manipulates the cross-attention layers that the model uses to interface textual and visual information and steers the reconstruction in the desired direction given, e.g., a user-specified layout. In order to determine how to best guide attention, we study the role of different attention maps when generating images and experiment with two alternative strategies, forward and backward guidance. We evaluate our method quantitatively and qualitatively with several experiments, validating its effectiveness. We further demonstrate its versatility by extending layout guidance to the task of editing the layout and context of a given real image.


著者 Minghao Chen,Iro Laina,Andrea Vedaldi
発行日 2023-04-06 21:00:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CV パーマリンク