MIGC++: Advanced Multi-Instance Generation Controller for Image Synthesis

要約

マルチインスタンス生成 (MIG) タスクを導入します。このタスクは、単一の画像内で複数のインスタンスを生成することに重点を置いており、各インスタンスは、ユーザーの仕様に厳密に従い、カテゴリ、色、形状などの属性を持つ事前定義された位置に正確に配置されます。
MIG は、インスタンス間の属性漏洩の回避、多様なインスタンス記述のサポート、反復生成における一貫性の維持という 3 つの主要な課題に直面しています。
属性漏洩に対処するために、マルチインスタンス生成コントローラー (MIGC) を提案します。
MIGC は分割統治戦略を通じて複数のインスタンスを生成し、複数インスタンスのシェーディングを単一の属性を持つ単一インスタンスのタスクに分割し、後で統合します。
より多くの種類のインスタンス記述を提供するために、MIGC++ を開発しました。
MIGC++ では、テキストと画像による属性制御と、ボックスとマスクによる位置制御が可能です。
最後に、MIGC および MIGC++ の反復 MIG 機能を強化するために、Consistent-MIG アルゴリズムを導入しました。
このアルゴリズムは、インスタンスの追加、削除、または変更中に未変更領域の一貫性を確保し、属性が変更された場合でもインスタンスのアイデンティティを保持します。
これらの方法を評価するために、COCO-MIG および Multimodal-MIG ベンチマークを紹介します。
これらのベンチマークと COCO-Position ベンチマークおよび DrawBench に関する広範な実験により、私たちの手法が既存の手法を大幅に上回り、位置、属性、数量などの側面に対する正確な制御を維持できることが実証されました。
プロジェクトページ: https://github.com/limuloo/MIGC。

要約(オリジナル)

We introduce the Multi-Instance Generation (MIG) task, which focuses on generating multiple instances within a single image, each accurately placed at predefined positions with attributes such as category, color, and shape, strictly following user specifications. MIG faces three main challenges: avoiding attribute leakage between instances, supporting diverse instance descriptions, and maintaining consistency in iterative generation. To address attribute leakage, we propose the Multi-Instance Generation Controller (MIGC). MIGC generates multiple instances through a divide-and-conquer strategy, breaking down multi-instance shading into single-instance tasks with singular attributes, later integrated. To provide more types of instance descriptions, we developed MIGC++. MIGC++ allows attribute control through text \& images and position control through boxes \& masks. Lastly, we introduced the Consistent-MIG algorithm to enhance the iterative MIG ability of MIGC and MIGC++. This algorithm ensures consistency in unmodified regions during the addition, deletion, or modification of instances, and preserves the identity of instances when their attributes are changed. We introduce the COCO-MIG and Multimodal-MIG benchmarks to evaluate these methods. Extensive experiments on these benchmarks, along with the COCO-Position benchmark and DrawBench, demonstrate that our methods substantially outperform existing techniques, maintaining precise control over aspects including position, attribute, and quantity. Project page: https://github.com/limuloo/MIGC.

arxiv情報

著者 Dewei Zhou,You Li,Fan Ma,Zongxin Yang,Yi Yang
発行日 2024-07-02 14:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク