要約
既存のMLLMベンチマークは、Unified MLLM(U-MLLM)の評価において、以下のような大きな課題に直面している:1)伝統的なタスクのための標準化されたベンチマークがないため、一貫性のない比較になる。2)混合モダリティ生成のためのベンチマークがないため、マルチモーダル推論能力を評価できない。我々は、U-MLLMを体系的に評価するために設計された包括的な評価フレームワークを提示する。我々のベンチマークには以下が含まれる:標準化された従来のタスク評価。30のサブタスクを持つ10のタスクをカバーする12のデータセットからサンプリングし、研究間の一貫した公平な比較を保証する。2.統一タスク評価。画像編集、画像生成による常識的なQA、幾何学的推論を含む、マルチモーダル推論をテストする5つの新規タスクを導入する。3.包括的なモデルのベンチマーク。Janus-Pro、EMU3、VILA-U、Gemini2-flashなどの12の主要なU-MLLMを、特殊な理解モデル(Claude-3.5-Sonnetなど)や生成モデル(DALL-E-3など)とともに評価する。我々の発見は、既存のU-MLLMの性能に大きなギャップがあることを明らかにし、混合モダリティタスクを効果的に処理できる、より頑健なモデルの必要性を強調している。コードと評価データはhttps://mme-unify.github.io/。
要約(オリジナル)
Existing MLLM benchmarks face significant challenges in evaluating Unified MLLMs (U-MLLMs) due to: 1) lack of standardized benchmarks for traditional tasks, leading to inconsistent comparisons; 2) absence of benchmarks for mixed-modality generation, which fails to assess multimodal reasoning capabilities. We present a comprehensive evaluation framework designed to systematically assess U-MLLMs. Our benchmark includes: Standardized Traditional Task Evaluation. We sample from 12 datasets, covering 10 tasks with 30 subtasks, ensuring consistent and fair comparisons across studies.’ 2. Unified Task Assessment. We introduce five novel tasks testing multimodal reasoning, including image editing, commonsense QA with image generation, and geometric reasoning. 3. Comprehensive Model Benchmarking. We evaluate 12 leading U-MLLMs, such as Janus-Pro, EMU3, VILA-U, and Gemini2-flash, alongside specialized understanding (e.g., Claude-3.5-Sonnet) and generation models (e.g., DALL-E-3). Our findings reveal substantial performance gaps in existing U-MLLMs, highlighting the need for more robust models capable of handling mixed-modality tasks effectively. The code and evaluation data can be found in https://mme-unify.github.io/.
arxiv情報
著者 | Wulin Xie,Yi-Fan Zhang,Chaoyou Fu,Yang Shi,Bingyan Nie,Hongkai Chen,Zhang Zhang,Liang Wang,Tieniu Tan |
発行日 | 2025-04-04 17:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |