DivCon: Divide and Conquer for Progressive Text-to-Image Generation

要約

拡散によるテキストから画像への (T2I) 生成は、目覚ましい進歩を遂げました。
数値的および空間的推論における T2I モデルの機能をさらに向上させるために、大規模な言語モデルとレイアウトベースの拡散モデルを橋渡しする媒介としてレイアウトが使用されます。
ただし、これらの方法でも、複数のオブジェクトと複雑な空間関係を含むテクスチャ プロンプトから画像を生成するのは困難です。
この課題に取り組むために、T2I 生成タスクを単純なサブタスクに分離する分割統治アプローチを導入します。
私たちのアプローチは、レイアウト予測段階を数値的および空間的推論と境界ボックス予測に分割します。
次に、レイアウトから画像への生成段階が反復的に実行され、オブジェクトを簡単なものから難しいものまで再構築します。
当社は HRS および NSR-1K ベンチマークで実験を実施しており、当社のアプローチは以前の最先端モデルを大幅に上回るパフォーマンスを示しています。
さらに、視覚的な結果は、私たちのアプローチが、複雑なテクスチャプロンプトから複数のオブジェクトを生成する際の制御性と一貫性を大幅に向上させることを示しています。

要約(オリジナル)

Diffusion-driven text-to-image (T2I) generation has achieved remarkable advancements. To further improve T2I models’ capability in numerical and spatial reasoning, the layout is employed as an intermedium to bridge large language models and layout-based diffusion models. However, these methods still struggle with generating images from textural prompts with multiple objects and complicated spatial relationships. To tackle this challenge, we introduce a divide-and-conquer approach which decouples the T2I generation task into simple subtasks. Our approach divides the layout prediction stage into numerical & spatial reasoning and bounding box prediction. Then, the layout-to-image generation stage is conducted in an iterative manner to reconstruct objects from easy ones to difficult ones. We conduct experiments on the HRS and NSR-1K benchmarks and our approach outperforms previous state-of-the-art models with notable margins. In addition, visual results demonstrate that our approach significantly improves the controllability and consistency in generating multiple objects from complex textural prompts.

arxiv情報

著者 Yuhao Jia,Wenhan Tan
発行日 2024-08-16 17:13:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク