MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

要約

MM-Vetは、統合された能力を評価することを目的とした自由形式の視覚言語問題を備えており、大規模なマルチモーダルモデル評価のための最も一般的なベンチマークの1つとなっている。MM-Vetは、認識、知識、空間認識、言語生成、OCR、数学の6つの中核的な視覚言語(VL)能力を評価します。しかし、MM-Vetの出題形式は画像とテキストのペアに限定されており、実世界のシナリオで一般的な画像とテキストのインターリーブがありません。この制限に対処するため、我々はMM-Vet v2を導入し、「画像-テキストシーケンスの理解」と呼ばれる新しいVL能力を含み、モデルがVLシーケンスを処理する能力を評価する。さらに、評価セットのサイズをさらに拡大しながら、評価サンプルの質の高さを維持している。MM-Vet v2を用いて大規模マルチモーダルモデルのベンチマークを行った結果、Claude 3.5 Sonnetが71.8というスコアで最良のモデルであり、71.0というスコアであったGPT-4oをわずかに上回ることがわかった。オープンウェイトモデルでは、InternVL2-Llama3-76Bが68.4のスコアでリードしている。

要約(オリジナル)

MM-Vet, with open-ended vision-language questions targeting at evaluating integrated capabilities, has become one of the most popular benchmarks for large multimodal model evaluation. MM-Vet assesses six core vision-language (VL) capabilities: recognition, knowledge, spatial awareness, language generation, OCR, and math. However, its question format is restricted to single image-text pairs, lacking the interleaved image and text sequences prevalent in real-world scenarios. To address this limitation, we introduce MM-Vet v2, which includes a new VL capability called ‘image-text sequence understanding’, evaluating models’ ability to process VL sequences. Furthermore, we maintain the high quality of evaluation samples while further expanding the evaluation set size. Using MM-Vet v2 to benchmark large multimodal models, we found that Claude 3.5 Sonnet is the best model with a score of 71.8, slightly outperforming GPT-4o which scored 71.0. Among open-weight models, InternVL2-Llama3-76B leads with a score of 68.4.

arxiv情報

著者 Weihao Yu,Zhengyuan Yang,Linfeng Ren,Linjie Li,Jianfeng Wang,Kevin Lin,Chung-Ching Lin,Zicheng Liu,Lijuan Wang,Xinchao Wang
発行日 2024-08-01 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク