要約
マルチモーダル大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力な知識理解と推論能力を実証しました。
しかし、MLLM の知性を評価するために不可欠なドメイン固有の知識を習得することは、依然として課題です。
分野固有の知識に対する現在のマルチモーダル ベンチマークは多肢選択式の質問に集中しており、主に英語で提供されているため、評価の包括性に制限が生じています。
この目的を達成するために、中国語でのマルチモーダルおよびマルチタイプの質問の理解と推論のための新しいベンチマークである CMMU を紹介します。
CMMUは7科目3,603問で構成されており、小学校から高校までの知識を網羅しています。
質問は多肢選択式、複数回答式、穴埋め式の 3 つのタイプに分類でき、MLLM にとってより大きな課題となります。
さらに、多肢選択問題を評価するための ShiftCheck と呼ばれる厳密な評価戦略を提案します。
この戦略は、位置のバイアスを削減し、正確性に対するランダム性の影響を最小限に抑え、位置のバイアスの定量的な分析を実行することを目的としています。
GPT4-V、Gemini-Pro、Qwen-VL-Plus とともに 7 つのオープンソース MLLM を評価します。
この結果は、CMMU が最近の MLLM に重大な課題をもたらしていることを示しています。
要約(オリジナル)
Multi-modal large language models(MLLMs) have achieved remarkable progress and demonstrated powerful knowledge comprehension and reasoning abilities. However, the mastery of domain-specific knowledge, which is essential for evaluating the intelligence of MLLMs, continues to be a challenge. Current multi-modal benchmarks for domain-specific knowledge concentrate on multiple-choice questions and are predominantly available in English, which imposes limitations on the comprehensiveness of the evaluation. To this end, we introduce CMMU, a novel benchmark for multi-modal and multi-type question understanding and reasoning in Chinese. CMMU consists of 3,603 questions in 7 subjects, covering knowledge from primary to high school. The questions can be categorized into 3 types: multiple-choice, multiple-response, and fill-in-the-blank, bringing greater challenges to MLLMs. In addition, we propose a rigorous evaluation strategy called ShiftCheck for assessing multiple-choice questions. The strategy aims to reduce position bias, minimize the influence of randomness on correctness, and perform a quantitative analysis of position bias. We evaluate seven open-source MLLMs along with GPT4-V, Gemini-Pro, and Qwen-VL-Plus. The results demonstrate that CMMU poses a significant challenge to the recent MLLMs.
arxiv情報
著者 | Zheqi He,Xinya Wu,Pengfei Zhou,Richeng Xuan,Guang Liu,Xi Yang,Qiannan Zhu,Hua Huang |
発行日 | 2024-01-25 08:22:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google