GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis

要約

テキストからイメージ(T2I)の生成は、拡散モデルで大きな進歩を遂げており、テキストプロンプトからの写真リアリスティックな画像の生成を可能にします。
この進歩にもかかわらず、既存の方法は、複雑なテキストプロンプト、特に構成およびマルチステップの推論を必要とする複雑なテキストプロンプトに従うことで依然として課題に直面しています。
このような複雑な指示を考えると、SOTAモデルは、しばしばオブジェクト属性とそれらの間の関係を忠実にモデル化することに間違いを犯します。
この作業では、T2I合成の代替パラダイムを提示し、複雑なマルチステップ生成のタスクを3つのステップに分解します。
編集プラン。
(c)編集:既存のテキスト誘導画像編集モデルを使用して、生成された画像上で編集計画を順次実行して、元の命令に忠実な目的の画像を取得します。
私たちのアプローチは、本質的にモジュール式であり、無料のトレーニングであり、画像生成モデルと編集モデルの任意の組み合わせに適用できるという事実から強さを導き出します。
追加の貢献として、組成編集が可能なモデルも開発します。これは、提案されたアプローチの全体的な精度をさらに向上させるのに役立ちます。
私たちの方法は、推論時間を柔軟に取引し、構成テキストプロンプトのパフォーマンスとともに計算します。
Dalle-3を含む3つのベンチマークと10のT2Iモデルで広範な実験的評価を実行し、最新のSD-3.5-Largeを使用しています。
私たちのアプローチは、SOTAモデルのパフォーマンスを最大3ポイント改善するだけでなく、弱いモデルとより強力なモデルのパフォーマンスギャップも削減します。
$ \ href {https://dair-iitd.github.io/grape/} {https://dair-iitd.github.io/grape/} $

要約(オリジナル)

Text-to-image (T2I) generation has seen significant progress with diffusion models, enabling generation of photo-realistic images from text prompts. Despite this progress, existing methods still face challenges in following complex text prompts, especially those requiring compositional and multi-step reasoning. Given such complex instructions, SOTA models often make mistakes in faithfully modeling object attributes, and relationships among them. In this work, we present an alternate paradigm for T2I synthesis, decomposing the task of complex multi-step generation into three steps, (a) Generate: we first generate an image using existing diffusion models (b) Plan: we make use of Multi-Modal LLMs (MLLMs) to identify the mistakes in the generated image expressed in terms of individual objects and their properties, and produce a sequence of corrective steps required in the form of an edit-plan. (c) Edit: we make use of an existing text-guided image editing models to sequentially execute our edit-plan over the generated image to get the desired image which is faithful to the original instruction. Our approach derives its strength from the fact that it is modular in nature, is training free, and can be applied over any combination of image generation and editing models. As an added contribution, we also develop a model capable of compositional editing, which further helps improve the overall accuracy of our proposed approach. Our method flexibly trades inference time compute with performance on compositional text prompts. We perform extensive experimental evaluation across 3 benchmarks and 10 T2I models including DALLE-3 and the latest — SD-3.5-Large. Our approach not only improves the performance of the SOTA models, by upto 3 points, it also reduces the performance gap between weaker and stronger models. $\href{https://dair-iitd.github.io/GraPE/}{https://dair-iitd.github.io/GraPE/}$

arxiv情報

著者 Ashish Goswami,Satyam Kumar Modi,Santhosh Rishi Deshineni,Harman Singh,Prathosh A. P,Parag Singla
発行日 2025-03-11 15:34:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク