UniEval: Unified Holistic Evaluation for Unified Multimodal Understanding and Generation

要約

統一されたマルチモーダルの理解と生成モデルの出現は、モデルの冗長性を最小限に抑えながら、指導中の能力を強化する能力のために急速に注目を集めています。
ただし、これらのモデルには統一された評価フレームワークが不足しているため、エレガントで簡素化された全体的な評価が可能になります。
現在のモデルは、複数のタスク固有のベンチマークで評価を実施していますが、全体的な結果の欠如、追加の評価モデルからのエラー、広範なラベル付き画像への依存、多様性を欠くベンチマーク、指導の能力が限られているメトリックなど、大きな制限があります。
これらの課題に取り組むために、追加のモデル、画像、または注釈なしで統一されたマルチモーダルモデル向けに設計された最初の評価フレームワークであるUnievalを紹介します。
これにより、簡素化された統一された評価プロセスが容易になります。
単一型フレームワークには、対応する非営利メトリックとともに、ホリスティックベンチマーク(統一モデルと視覚生成モデルの両方をサポート)が含まれています。
Unibenchには、多様性の高い81個の細粒タグが含まれています。
実験結果は、Unibenchが既存のベンチマークよりも困難であり、非居住者が人間の評価と密接に一致し、現在のメトリックを上回っていることを示しています。
さらに、SOTA統合モデルと視覚的生成モデルを広範囲に評価し、ユニバルのユニークな価値に関する新しい洞察を明らかにしました。

要約(オリジナル)

The emergence of unified multimodal understanding and generation models is rapidly attracting attention because of their ability to enhance instruction-following capabilities while minimizing model redundancy. However, there is a lack of a unified evaluation framework for these models, which would enable an elegant, simplified, and overall evaluation. Current models conduct evaluations on multiple task-specific benchmarks, but there are significant limitations, such as the lack of overall results, errors from extra evaluation models, reliance on extensive labeled images, benchmarks that lack diversity, and metrics with limited capacity for instruction-following evaluation. To tackle these challenges, we introduce UniEval, the first evaluation framework designed for unified multimodal models without extra models, images, or annotations. This facilitates a simplified and unified evaluation process. The UniEval framework contains a holistic benchmark, UniBench (supports both unified and visual generation models), along with the corresponding UniScore metric. UniBench includes 81 fine-grained tags contributing to high diversity. Experimental results indicate that UniBench is more challenging than existing benchmarks, and UniScore aligns closely with human evaluations, surpassing current metrics. Moreover, we extensively evaluated SoTA unified and visual generation models, uncovering new insights into Univeral’s unique values.

arxiv情報

著者 Yi Li,Haonan Wang,Qixiang Zhang,Boyu Xiao,Chenchang Hu,Hualiang Wang,Xiaomeng Li
発行日 2025-05-15 16:34:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク