MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation

要約

拡散モデルは、テキストから画像の生成において優れたパフォーマンスを示しています。
それにもかかわらず、既存の方法は、複数のオブジェクト、特性、関係を含む複雑なプロンプトを処理する際に、パフォーマンスのボトルネックに苦しむことがよくあります。
したがって、複雑なシーンのテキストから画像の生成のためのマルチエージェントコラボレーションベースの組成拡散(MCCD)を提案します。
具体的には、異なるタスクを持つ複数のエージェントを含むエージェントシステムを生成するマルチエージェントコラボレーションベースのシーン解析モジュールを設計し、MLLMを利用してさまざまなシーン要素を効果的に抽出します。
さらに、階層的な組成拡散は、ガウスマスクとフィルタリングを利用して、境界ボックス領域を改良し、領域の強化を通じてオブジェクトを強化し、複雑なシーンの正確で高忠実度の生成をもたらします。
包括的な実験は、MCCDがトレーニングなしの方法でベースラインモデルのパフォーマンスを大幅に改善し、複雑なシーン生成に大きな利点をもたらすことを示しています。

要約(オリジナル)

Diffusion models have shown excellent performance in text-to-image generation. Nevertheless, existing methods often suffer from performance bottlenecks when handling complex prompts that involve multiple objects, characteristics, and relations. Therefore, we propose a Multi-agent Collaboration-based Compositional Diffusion (MCCD) for text-to-image generation for complex scenes. Specifically, we design a multi-agent collaboration-based scene parsing module that generates an agent system comprising multiple agents with distinct tasks, utilizing MLLMs to extract various scene elements effectively. In addition, Hierarchical Compositional diffusion utilizes a Gaussian mask and filtering to refine bounding box regions and enhance objects through region enhancement, resulting in the accurate and high-fidelity generation of complex scenes. Comprehensive experiments demonstrate that our MCCD significantly improves the performance of the baseline models in a training-free manner, providing a substantial advantage in complex scene generation.

arxiv情報

著者 Mingcheng Li,Xiaolu Hou,Ziyang Liu,Dingkang Yang,Ziyun Qian,Jiawei Chen,Jinjie Wei,Yue Jiang,Qingyao Xu,Lihua Zhang
発行日 2025-05-06 15:18:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク