要約
既存のテキストから画像へのモデルは、複数のオブジェクトの画像を生成するのに依然として苦労しており、特にオブジェクトの空間的位置、相対的なサイズ、重なり、属性バインディングの処理が困難です。
これらの課題に効率的に対処するために、複雑な計画とフィードバック制御を使用してマルチオブジェクトを段階的に生成できる、トレーニング不要のマルチモーダル LLM エージェント (MuLan) をヒューマン ペインターとして開発しました。
MuLan は大規模言語モデル (LLM) を利用して、プロンプトを一連のサブタスクに分解します。各サブタスクは、以前に生成されたオブジェクトを条件として、安定した拡散によって 1 つのオブジェクトだけを生成します。
既存の LLM ベースのメソッドとは異なり、MuLan は最初に大まかな計画を作成するだけですが、各オブジェクトの正確なサイズと位置は、LLM と注意ガイダンスによって各サブタスクで決定されます。
さらに、MuLan はビジョン言語モデル (VLM) を採用して、各サブタスクで生成された画像にフィードバックを提供し、元のプロンプトに違反する場合に画像を再生成するように拡散モデルを制御します。
したがって、MuLan の各ステップの各モデルは、そのモデルが特化した簡単なサブタスクに対処するだけで済みます。
また、複数ステップのプロセスにより、人間のユーザーが生成プロセスを監視し、中間ステップでテキスト プロンプトを介して好みの変更を加えることができるため、人間と AI のコラボレーション エクスペリエンスが向上します。
MuLan を評価するために、さまざまなベンチマークから空間関係と属性バインディングを持つマルチオブジェクトを含む 200 個のプロンプトを収集します。
この結果は、ベースラインを超えて複数のオブジェクトを生成する際の MuLan の優位性と、人間のユーザーと共同作業する際の創造性を示しています。
コードは https://github.com/measure-infinity/mulan-code で入手できます。
要約(オリジナル)
Existing text-to-image models still struggle to generate images of multiple objects, especially in handling their spatial positions, relative sizes, overlapping, and attribute bindings. To efficiently address these challenges, we develop a training-free Multimodal-LLM agent (MuLan), as a human painter, that can progressively generate multi-object with intricate planning and feedback control. MuLan harnesses a large language model (LLM) to decompose a prompt to a sequence of sub-tasks, each generating only one object by stable diffusion, conditioned on previously generated objects. Unlike existing LLM-grounded methods, MuLan only produces a high-level plan at the beginning while the exact size and location of each object are determined upon each sub-task by an LLM and attention guidance. Moreover, MuLan adopts a vision-language model (VLM) to provide feedback to the image generated in each sub-task and control the diffusion model to re-generate the image if it violates the original prompt. Hence, each model in every step of MuLan only needs to address an easy sub-task it is specialized for. The multi-step process also allows human users to monitor the generation process and make preferred changes at any intermediate step via text prompts, thereby improving the human-AI collaboration experience. We collect 200 prompts containing multi-objects with spatial relationships and attribute bindings from different benchmarks to evaluate MuLan. The results demonstrate the superiority of MuLan in generating multiple objects over baselines and its creativity when collaborating with human users. The code is available at https://github.com/measure-infinity/mulan-code.
arxiv情報
| 著者 | Sen Li,Ruochen Wang,Cho-Jui Hsieh,Minhao Cheng,Tianyi Zhou | 
| 発行日 | 2024-05-24 15:56:58+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
