MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

要約

大規模なマルチモーダルモデル(LMMS)は、画像、質問、いくつかのオプションを含む多肢選択式の質問(MCQ)を通じてしばしば評価される印象的なクロスモーダルの理解と推論能力を示します。
ただし、このような評価に使用される多くのベンチマークは、体系的なバイアスに悩まされています。
驚くべきことに、視覚的な知覚能力のない大規模な言語モデル(LLM)は、これらの評価の信頼性を損ない、自明でないパフォーマンスを達成します。
MCQ評価の効率を維持しながらこの問題に対処するために、3部作の評価パイプラインとより厳格なメトリックを通じてタイプIエラーを回避するために設計されたベンチマークであるMmevalproを提案します。
既存のベンチマークからの元の質問ごとに、人間のアノテーターは、1つの知覚質問と1つの知識アンカーの質問を細心の注釈プロセスを通じて作成することにより、それを増強します。
Mmevalproは2,138ドルの質問トリプレットで構成されており、合計6,414ドルの異なる質問があります。
これらの質問の3分の2は、人間の専門家によって手動でラベル付けされていますが、残りは既存のベンチマーク(MMMU、ScienceQA、およびMathvista)から調達されています。
既存のベンチマークと比較して、最新のLLMSおよびLMMSでの実験は、Mmevalproがより挑戦的であることを示しています(以前のベンチマークでの平均$ 8.03 \%$の平均ギャップと比較して、人間のパフォーマンスの背後に31.73%\%$ $ $ 31.73 \%$)と、より信頼できるLMM Best Prevers by $ 23.09の最高のLMM Trails for $ 23.09の最適
わずか14.64 \%$)です。
私たちの詳細な分析は、大きなパフォーマンスギャップの理由を説明し、評価の信頼性を正当化し、将来の研究を進めるための重要な可能性を強調しています。

要約(オリジナル)

Large Multimodal Models (LMMs) exhibit impressive cross-modal understanding and reasoning abilities, often assessed through multiple-choice questions (MCQs) that include an image, a question, and several options. However, many benchmarks used for such evaluations suffer from systematic biases. Remarkably, Large Language Models (LLMs) without any visual perception capabilities achieve non-trivial performance, undermining the credibility of these evaluations. To address this issue while maintaining the efficiency of MCQ evaluations, we propose MMEvalPro, a benchmark designed to avoid Type-I errors through a trilogy evaluation pipeline and more rigorous metrics. For each original question from existing benchmarks, human annotators augment it by creating one perception question and one knowledge anchor question through a meticulous annotation process. MMEvalPro comprises $2,138$ question triplets, totaling $6,414$ distinct questions. Two-thirds of these questions are manually labeled by human experts, while the rest are sourced from existing benchmarks (MMMU, ScienceQA, and MathVista). Compared with the existing benchmarks, our experiments with the latest LLMs and LMMs demonstrate that MMEvalPro is more challenging (the best LMM lags behind human performance by $31.73\%$, compared to an average gap of $8.03\%$ in previous benchmarks) and more trustworthy (the best LLM trails the best LMM by $23.09\%$, whereas the gap for previous benchmarks is just $14.64\%$). Our in-depth analysis explains the reason for the large performance gap and justifies the trustworthiness of evaluation, underscoring its significant potential for advancing future research.

arxiv情報

著者 Jinsheng Huang,Liang Chen,Taian Guo,Fu Zeng,Yusheng Zhao,Bohan Wu,Ye Yuan,Haozhe Zhao,Zhihui Guo,Yichi Zhang,Jingyang Yuan,Wei Ju,Luchen Liu,Tianyu Liu,Baobao Chang,Ming Zhang
発行日 2025-02-27 15:10:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク