MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

要約

マルチモーダル大規模言語モデル (MLLM) は、強力な LLM に依存してマルチモーダル タスクを実行し、画像に基づいて詩を書くなど、最近の研究で驚くべき新しい能力を示しています。
しかし、これらの事例ではMLLMの実績を完全に反映することは難しく、総合的な評価が不足しています。
このペーパーでは、この空白を埋めて、最初の MLLM 評価ベンチマーク MME を提示します。
合計 14 のサブタスクについて、知覚能力と認知能力の両方を測定します。
評価のために公開データセットを直接使用することで生じる可能性のあるデータ漏洩を回避するために、指示と回答のペアの注釈はすべて手動で設計されています。
簡潔な命令設計により、プロンプトエンジニアリングで苦労することなく、MLLM を公平に比較​​できるようになります。
さらに、このような指示により、定量的な統計も簡単に実行できます。
合計 10 の高度な MLLM が MME で包括的に評価されます。これにより、既存の MLLM にはまだ大きな改善の余地があることが示唆されるだけでなく、その後のモデル最適化の潜在的な方向性も明らかになります。

要約(オリジナル)

Multimodal Large Language Model (MLLM) relies on the powerful LLM to perform multimodal tasks, showing amazing emergent abilities in recent studies, such as writing poems based on an image. However, it is difficult for these case studies to fully reflect the performance of MLLM, lacking a comprehensive evaluation. In this paper, we fill in this blank, presenting the first MLLM Evaluation benchmark MME. It measures both perception and cognition abilities on a total of 14 subtasks. In order to avoid data leakage that may arise from direct use of public datasets for evaluation, the annotations of instruction-answer pairs are all manually designed. The concise instruction design allows us to fairly compare MLLMs, instead of struggling in prompt engineering. Besides, with such an instruction, we can also easily carry out quantitative statistics. A total of 10 advanced MLLMs are comprehensively evaluated on our MME, which not only suggests that existing MLLMs still have a large room for improvement, but also reveals the potential directions for the subsequent model optimization.

arxiv情報

著者 Chaoyou Fu,Peixian Chen,Yunhang Shen,Yulei Qin,Mengdan Zhang,Xu Lin,Zhenyu Qiu,Wei Lin,Jinrui Yang,Xiawu Zheng,Ke Li,Xing Sun,Rongrong Ji
発行日 2023-06-23 09:22:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク