要約
大規模マルチモーダル モデル (LMM) の機能が進化し続けるにつれて、LMM のパフォーマンスを評価する必要性が高まっています。
さらに、中国語などの英語以外の文脈における LMM の高度な知識と推論能力の評価には、さらに大きなギャップがあります。
CMMMU は、大学レベルの主題知識と中国語の文脈での意図的な推論を要求するタスクで LMM を評価するように設計された、新しい中国の大規模多分野マルチモーダル理解ベンチマークです。
CMMMU は MMMU の注釈と分析パターンからインスピレーションを得ており、厳密に従っています。
CMMMU には、大学の試験、クイズ、教科書から手作業で収集された 12,000 のマルチモーダルな質問が含まれており、その付属品である MMMU と同様に、芸術とデザイン、ビジネス、科学、健康と医学、人文科学と社会科学、技術と工学の 6 つの中核分野をカバーしています。
これらの質問は 30 の主題にわたっており、チャート、図、地図、表、楽譜、化学構造など、39 種類の非常に異質な画像タイプで構成されています。
CMMMU は、中国語の文脈における分野固有の知識による複雑な認識と推論に焦点を当てています。
11 個のオープンソース LLM と 1 個の独自仕様 GPT-4V(ision) を評価します。
GPT-4V でさえ 42% の精度しか達成できず、改善の余地が大きいことを示しています。
CMMMU は、専門家向け人工知能に向けた次世代 LMM の構築にコミュニティを後押しし、多様な言語コンテキストを提供することで LMM の民主化を促進します。
要約(オリジナル)
As the capabilities of large multimodal models (LMMs) continue to advance, evaluating the performance of LMMs emerges as an increasing need. Additionally, there is an even larger gap in evaluating the advanced knowledge and reasoning abilities of LMMs in non-English contexts such as Chinese. We introduce CMMMU, a new Chinese Massive Multi-discipline Multimodal Understanding benchmark designed to evaluate LMMs on tasks demanding college-level subject knowledge and deliberate reasoning in a Chinese context. CMMMU is inspired by and strictly follows the annotation and analysis pattern of MMMU. CMMMU includes 12k manually collected multimodal questions from college exams, quizzes, and textbooks, covering six core disciplines: Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, and Tech & Engineering, like its companion, MMMU. These questions span 30 subjects and comprise 39 highly heterogeneous image types, such as charts, diagrams, maps, tables, music sheets, and chemical structures. CMMMU focuses on complex perception and reasoning with domain-specific knowledge in the Chinese context. We evaluate 11 open-source LLMs and one proprietary GPT-4V(ision). Even GPT-4V only achieves accuracies of 42%, indicating a large space for improvement. CMMMU will boost the community to build the next-generation LMMs towards expert artificial intelligence and promote the democratization of LMMs by providing diverse language contexts.
arxiv情報
著者 | Ge Zhang,Xinrun Du,Bei Chen,Yiming Liang,Tongxu Luo,Tianyu Zheng,Kang Zhu,Yuyang Cheng,Chunpu Xu,Shuyue Guo,Haoran Zhang,Xingwei Qu,Junjie Wang,Ruibin Yuan,Yizhi Li,Zekun Wang,Yudong Liu,Yu-Hsuan Tsai,Fengji Zhang,Chenghua Lin,Wenhao Huang,Wenhu Chen,Jie Fu |
発行日 | 2024-01-22 13:34:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google