要約
画像生成は、過去数年間で大きな進歩を目撃しました。
ただし、画像生成モデルのパフォーマンスを評価することは、恐ろしい課題のままです。
この論文では、画像生成モデルを厳密に評価するために設計された統一された包括的なベンチマークであるIce-Benchを提案します。
その包括性は、次の主要な機能にまとめることができます。(1)粗からファインのタスク:イメージの生成を体系的に4つのタスクカテゴリに分解します:ソース画像と参照画像の存在または不在に基づいて、no-ref/ref画像の作成/編集。
さらに、幅広い画像生成要件をカバーする31の細かいタスクにそれらを分解し、包括的なベンチマークで頂点に達します。
(2)多次元メトリック:評価フレームワークは、6次元の画像生成機能を評価します:審美的品質、イメージング品質、迅速なフォロー、ソースの一貫性、参照の一貫性、制御性。
11次元評価をサポートするために11のメトリックが導入されています。
特に、大規模なモデルを活用することで画像編集の成功を評価するために設計された革新的なメトリックであるVLLM-QAを紹介します。
(3)ハイブリッドデータ:データは、実際のシーンと仮想生成に由来し、データの多様性を効果的に改善し、モデル評価のバイアス問題を軽減します。
ICEベンチを通じて、既存の生成モデルの徹底的な分析を実施し、ベンチマークの挑戦的な性質と、現在のモデル機能と実際の生成要件の間のギャップの両方を明らかにします。
この分野でのさらなる進歩を促進するために、データセット、評価コード、モデルなど、アイスベンチをオープンソースにして、研究コミュニティに貴重なリソースを提供します。
要約(オリジナル)
Image generation has witnessed significant advancements in the past few years. However, evaluating the performance of image generation models remains a formidable challenge. In this paper, we propose ICE-Bench, a unified and comprehensive benchmark designed to rigorously assess image generation models. Its comprehensiveness could be summarized in the following key features: (1) Coarse-to-Fine Tasks: We systematically deconstruct image generation into four task categories: No-ref/Ref Image Creating/Editing, based on the presence or absence of source images and reference images. And further decompose them into 31 fine-grained tasks covering a broad spectrum of image generation requirements, culminating in a comprehensive benchmark. (2) Multi-dimensional Metrics: The evaluation framework assesses image generation capabilities across 6 dimensions: aesthetic quality, imaging quality, prompt following, source consistency, reference consistency, and controllability. 11 metrics are introduced to support the multi-dimensional evaluation. Notably, we introduce VLLM-QA, an innovative metric designed to assess the success of image editing by leveraging large models. (3) Hybrid Data: The data comes from real scenes and virtual generation, which effectively improves data diversity and alleviates the bias problem in model evaluation. Through ICE-Bench, we conduct a thorough analysis of existing generation models, revealing both the challenging nature of our benchmark and the gap between current model capabilities and real-world generation requirements. To foster further advancements in the field, we will open-source ICE-Bench, including its dataset, evaluation code, and models, thereby providing a valuable resource for the research community.
arxiv情報
著者 | Yulin Pan,Xiangteng He,Chaojie Mao,Zhen Han,Zeyinzi Jiang,Jingfeng Zhang,Yu Liu |
発行日 | 2025-03-18 17:53:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google