DetailMaster: Can Your Text-to-Image Model Handle Long Prompts?

要約

最近のテキストからイメージ(T2I)モデルは、簡単な説明から画像を合成する際の印象的な機能を示していますが、プロのアプリケーションで必要な長い詳細集約的なプロンプトに直面した場合、パフォーマンスは大幅に低下します。
T2Iモデルの系統的能力を評価するために特別に設計された最初の包括的なベンチマークである詳細マスターを提示します。複雑な構成要件を含む拡張されたテキスト入力を処理します。
ベンチマークでは、文字属性、構造化された文字位置、多次元シーン属性、および明示的な空間/インタラクティブな関係の4つの重要な評価ディメンションを紹介します。
ベンチマークは、平均284.89トークンの長くて詳細に富むプロンプトで構成され、高品質は専門家のアノテーターによって検証されています。
7つの汎用と5つの長期にわたる最適化されたT2Iモデルでの評価は、重要なパフォーマンスの制限を明らかにします。最先端のモデルは、属性結合や空間推論などの主要な次元でわずか50%の精度を達成しますが、プロデュースのパフォーマンスの分解として進行性のパフォーマンスの分解を示すすべてのモデルが増加します。
私たちの分析は、構造的理解と詳細な過負荷処理の全身障害を強調し、構成推論を強化したアーキテクチャの将来の研究を動機付けています。
データセット、データキュレーションコード、および評価ツールをオープンソースして、詳細に富むT2I生成を進め、専用のベンチマークがないために実行不可能な幅広いアプリケーションを有効にします。

要約(オリジナル)

While recent text-to-image (T2I) models show impressive capabilities in synthesizing images from brief descriptions, their performance significantly degrades when confronted with long, detail-intensive prompts required in professional applications. We present DetailMaster, the first comprehensive benchmark specifically designed to evaluate T2I models’ systematical abilities to handle extended textual inputs that contain complex compositional requirements. Our benchmark introduces four critical evaluation dimensions: Character Attributes, Structured Character Locations, Multi-Dimensional Scene Attributes, and Explicit Spatial/Interactive Relationships. The benchmark comprises long and detail-rich prompts averaging 284.89 tokens, with high quality validated by expert annotators. Evaluation on 7 general-purpose and 5 long-prompt-optimized T2I models reveals critical performance limitations: state-of-the-art models achieve merely ~50% accuracy in key dimensions like attribute binding and spatial reasoning, while all models showing progressive performance degradation as prompt length increases. Our analysis highlights systemic failures in structural comprehension and detail overload handling, motivating future research into architectures with enhanced compositional reasoning. We open-source the dataset, data curation code, and evaluation tools to advance detail-rich T2I generation and enable broad applications that would otherwise be infeasible due to the lack of a dedicated benchmark.

arxiv情報

著者 Qirui Jiao,Daoyuan Chen,Yilun Huang,Xika Lin,Ying Shen,Yaliang Li
発行日 2025-05-22 17:11:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク