Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation

要約

テキストからイメージ(T2I)生成の最近の進歩により、モデルはテキストの説明から高品質の画像を作成できました。
ただし、これらのモデルは、複数のオブジェクト、属性、および空間的関係を含む複雑な指示に苦労しています。
T2Iモデルを評価するための既存のベンチマークは、主に一般的なテキストイメージのアライメントに焦点を当てており、複雑で多面的なプロンプトの微妙な要件をキャプチャできません。
このギャップを考慮して、複雑な指示の下でT2Iモデルを評価するために特別に設計された包括的なベンチマークであるLongbench-T2iを導入します。
Longbench-T2Iは、9つの多様な視覚評価の次元にまたがる500の複雑に設計されたプロンプトで構成されており、複雑な指示に従うモデルの能力を徹底的に評価できます。
ベンチマークを超えて、追加のモデルトレーニングを必要とせずに複雑な命令主導型の画像生成を促進するエージェントフレームワーク(Plan2Gen)を提案します。
このフレームワークは、既存のT2Iモデルとシームレスに統合され、大規模な言語モデルを使用して複雑なプロンプトを解釈および分解し、生成プロセスをより効果的に導きます。
Clipscoreなどの既存の評価メトリックは、複雑な命令のニュアンスを適切にキャプチャできないため、一連の多次元メトリックを使用して生成された画像の品質評価を自動化する評価ツールキットを導入します。
データとコードはhttps://github.com/yczhou001/longbench-t2iでリリースされます。

要約(オリジナル)

Recent advancements in text-to-image (T2I) generation have enabled models to produce high-quality images from textual descriptions. However, these models often struggle with complex instructions involving multiple objects, attributes, and spatial relationships. Existing benchmarks for evaluating T2I models primarily focus on general text-image alignment and fail to capture the nuanced requirements of complex, multi-faceted prompts. Given this gap, we introduce LongBench-T2I, a comprehensive benchmark specifically designed to evaluate T2I models under complex instructions. LongBench-T2I consists of 500 intricately designed prompts spanning nine diverse visual evaluation dimensions, enabling a thorough assessment of a model’s ability to follow complex instructions. Beyond benchmarking, we propose an agent framework (Plan2Gen) that facilitates complex instruction-driven image generation without requiring additional model training. This framework integrates seamlessly with existing T2I models, using large language models to interpret and decompose complex prompts, thereby guiding the generation process more effectively. As existing evaluation metrics, such as CLIPScore, fail to adequately capture the nuances of complex instructions, we introduce an evaluation toolkit that automates the quality assessment of generated images using a set of multi-dimensional metrics. The data and code are released at https://github.com/yczhou001/LongBench-T2I.

arxiv情報

著者 Yucheng Zhou,Jiahao Yuan,Qianning Wang
発行日 2025-05-30 16:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク