Spatial-Aware Latent Initialization for Controllable Image Generation

要約

最近、テキストから画像への拡散モデルは、テキスト入力に基づいて高品質の画像を生成する優れた能力を実証しました。
ただし、これらのモデルは、空間レイアウト情報に関するテキストの指示を正確に遵守するのに苦労しています。
これまでの研究は主にクロスアテンション マップをレイアウト条件に合わせることに焦点を当てていましたが、レイアウト ガイダンスに対する初期化ノイズの影響は見落とされていました。
より良いレイアウト制御を実現するために、ノイズ除去プロセス中に空間認識初期化ノイズを活用することを提案します。
具体的には、有限の反転ステップを使用した反転参照画像にはオブジェクトの位置に関する貴重な空間認識が含まれており、その結果、生成された画像でも同様のレイアウトが得られることがわかりました。
この観察に基づいて、レイアウト条件ごとに空間を意識した初期化ノイズをカスタマイズするためのオープン語彙フレームワークを開発しました。
初期化ノイズを除いて他のモジュールを変更することなく、私たちのアプローチは、他のトレーニング不要のレイアウト ガイダンス フレームワーク内のプラグ アンド プレイ モジュールとしてシームレスに統合できます。
私たちは、利用可能な安定拡散モデルと COCO データセットに基づいてアプローチを定量的および定性的に評価します。
空間認識型潜在初期化を備えたこの手法は、高品質のコンテンツを維持しながら、レイアウト ガイダンスの有効性を大幅に向上させます。

要約(オリジナル)

Recently, text-to-image diffusion models have demonstrated impressive ability to generate high-quality images conditioned on the textual input. However, these models struggle to accurately adhere to textual instructions regarding spatial layout information. While previous research has primarily focused on aligning cross-attention maps with layout conditions, they overlook the impact of the initialization noise on the layout guidance. To achieve better layout control, we propose leveraging a spatial-aware initialization noise during the denoising process. Specifically, we find that the inverted reference image with finite inversion steps contains valuable spatial awareness regarding the object’s position, resulting in similar layouts in the generated images. Based on this observation, we develop an open-vocabulary framework to customize a spatial-aware initialization noise for each layout condition. Without modifying other modules except the initialization noise, our approach can be seamlessly integrated as a plug-and-play module within other training-free layout guidance frameworks. We evaluate our approach quantitatively and qualitatively on the available Stable Diffusion model and COCO dataset. Equipped with the spatial-aware latent initialization, our method significantly improves the effectiveness of layout guidance while preserving high-quality content.

arxiv情報

著者 Wenqiang Sun,Teng Li,Zehong Lin,Jun Zhang
発行日 2024-01-29 13:42:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク