要約
テキストツーイメージ(T2I)モデルは、テキストプロンプトに沿った高品質の画像を生成するために大きな注意を集めています。
ただし、迅速なT2Iモデルの進歩により、初期のベンチマークの制限が明らかになりますが、包括的な評価はありません。たとえば、推論、テキストのレンダリング、スタイルに関する評価があります。
特に、豊富な知識モデリング機能を備えた最近の最先端のモデルは、強力な推論能力を必要とする画像生成の問題について有望な結果を示していますが、既存の評価システムはこのフロンティアに適切に対処していません。
これらのギャップに体系的に対処するために、プロンプトイメージのアライメント、精度のレンダリング、推論生成コンテンツ、スタイリライゼーション、多様性など、複数の次元にわたってT2Iモデルの微細に設計された包括的なベンチマークフレームワークであるOneig-Benchを紹介します。
評価を構成することにより、このベンチマークはモデルパフォーマンスの詳細な分析を可能にし、研究者と実践者が画像生成の完全なパイプラインで強度とボトルネックを特定するのを支援します。
具体的には、Oneig-Benchは、ユーザーが特定の評価サブセットに集中できるようにすることにより、柔軟な評価を可能にします。
プロンプトのセット全体の画像を生成する代わりに、ユーザーは選択したディメンションに関連付けられたプロンプトに対してのみ画像を生成し、それに応じて対応する評価を完了できます。
CodebaseとDatasetは、T2I研究コミュニティ内での再現可能な評価研究とクロスモデル比較を促進するために、公開されています。
要約(オリジナル)
Text-to-image (T2I) models have garnered significant attention for generating high-quality images aligned with text prompts. However, rapid T2I model advancements reveal limitations in early benchmarks, lacking comprehensive evaluations, for example, the evaluation on reasoning, text rendering and style. Notably, recent state-of-the-art models, with their rich knowledge modeling capabilities, show promising results on the image generation problems requiring strong reasoning ability, yet existing evaluation systems have not adequately addressed this frontier. To systematically address these gaps, we introduce OneIG-Bench, a meticulously designed comprehensive benchmark framework for fine-grained evaluation of T2I models across multiple dimensions, including prompt-image alignment, text rendering precision, reasoning-generated content, stylization, and diversity. By structuring the evaluation, this benchmark enables in-depth analysis of model performance, helping researchers and practitioners pinpoint strengths and bottlenecks in the full pipeline of image generation. Specifically, OneIG-Bench enables flexible evaluation by allowing users to focus on a particular evaluation subset. Instead of generating images for the entire set of prompts, users can generate images only for the prompts associated with the selected dimension and complete the corresponding evaluation accordingly. Our codebase and dataset are now publicly available to facilitate reproducible evaluation studies and cross-model comparisons within the T2I research community.
arxiv情報
著者 | Jingjing Chang,Yixiao Fang,Peng Xing,Shuhan Wu,Wei Cheng,Rui Wang,Xianfang Zeng,Gang Yu,Hai-Bao Chen |
発行日 | 2025-06-10 12:31:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google