IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation

要約

Text-to-Image (T2I) 拡散モデルは、個々のインスタンスの視覚的に魅力的な画像の生成には優れていますが、複数のインスタンスの特徴生成を正確に配置して制御するのは困難です。
Layout-to-Image (L2I) タスクは、境界ボックスを空間制御信号として組み込むことで位置決めの課題に対処するために導入されましたが、正確なインスタンス フィーチャを生成するにはまだ不十分です。
これに応えて、生成されたインスタンスの位置精度と特徴の忠実性の両方を保証することを目的としたインスタンス特徴生成 (IFG) タスクを提案します。
IFG タスクに対処するために、インスタンス フィーチャー アダプター (IFAdapter) を導入します。
IFAdapter は、追加の外観トークンを組み込み、インスタンス セマンティック マップを利用してインスタンス レベルのフィーチャを空間的位置に合わせることで、フィーチャの描写を強化します。
IFAdapter は、プラグアンドプレイ モジュールとして普及プロセスをガイドし、さまざまなコミュニティ モデルに適応できるようにします。
評価のために、IFG ベンチマークを提供し、正確な位置と機能を備えたインスタンスを生成するモデルの能力を客観的に比較するための検証パイプラインを開発します。
実験結果は、IFAdapter が定量的評価と定性的評価の両方で他のモデルよりも優れていることを示しています。

要約(オリジナル)

While Text-to-Image (T2I) diffusion models excel at generating visually appealing images of individual instances, they struggle to accurately position and control the features generation of multiple instances. The Layout-to-Image (L2I) task was introduced to address the positioning challenges by incorporating bounding boxes as spatial control signals, but it still falls short in generating precise instance features. In response, we propose the Instance Feature Generation (IFG) task, which aims to ensure both positional accuracy and feature fidelity in generated instances. To address the IFG task, we introduce the Instance Feature Adapter (IFAdapter). The IFAdapter enhances feature depiction by incorporating additional appearance tokens and utilizing an Instance Semantic Map to align instance-level features with spatial locations. The IFAdapter guides the diffusion process as a plug-and-play module, making it adaptable to various community models. For evaluation, we contribute an IFG benchmark and develop a verification pipeline to objectively compare models’ abilities to generate instances with accurate positioning and features. Experimental results demonstrate that IFAdapter outperforms other models in both quantitative and qualitative evaluations.

arxiv情報

著者 Yinwei Wu,Xianpan Zhou,Bing Ma,Xuefeng Su,Kai Ma,Xinchao Wang
発行日 2024-09-12 17:39:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク