Multi: Multimodal Understanding Leaderboard with Text and Images

要約

マルチモーダル大規模言語モデル(MLLM)の急速な進歩は、アカデミックコミュニティに挑戦的かつ現実的なベンチマークを導入する必要性を浮き彫りにしている。既存のベンチマークは主に単純な自然画像の理解に焦点を当てているが、MultiはMLLMのための最先端のベンチマークとして登場し、複雑な図や表、科学的な質問の理解に対してMLLMを評価するための包括的なデータセットを提供する。このベンチマークは、現在の現実的な試験スタイルを反映し、マルチモーダルな入力を提供し、実際の学校のテストと同様に、正確または自由形式の回答を要求します。計算式の導出から画像の詳細分析、クロスモダリティ推論まで、さまざまなタスクでMLLMに挑戦します。Multiには18,000問以上の問題が収録されており、多様な形式の科学に基づいたQAに重点を置いています。また、MLLMの極限をテストするための500問のサブセットであるMulti-Eliteと、4,500以上の知識ピースでIn-Context Learning研究を強化するMulti-Extendも紹介する。GPT-4VはMultiで63.7%の精度を達成し、他のMLLMが31.3%から53.7%であるのとは対照的でした。Multiは堅牢な評価プラットフォームとしてだけでなく、エキスパートレベルのAI開発への道を開くものでもある。

要約(オリジナル)

Rapid progress in multimodal large language models (MLLMs) highlights the need to introduce challenging yet realistic benchmarks to the academic community. Existing benchmarks primarily focus on simple natural image understanding, but Multi emerges as a cutting-edge benchmark for MLLMs, offering a comprehensive dataset for evaluating MLLMs against understanding complex figures and tables, and scientific questions. This benchmark, reflecting current realistic examination styles, provides multimodal inputs and requires responses that are either precise or open-ended, similar to real-life school tests. It challenges MLLMs with a variety of tasks, ranging from formula derivation to image detail analysis, and cross-modality reasoning. Multi includes over 18,000 questions, with a focus on science-based QA in diverse formats. We also introduce Multi-Elite, a 500-question subset for testing the extremities of MLLMs, and Multi-Extend, which enhances In-Context Learning research with more than 4,500 knowledge pieces. Our evaluation indicates significant potential for MLLM advancement, with GPT-4V achieving a 63.7% accuracy rate on Multi, in contrast to other MLLMs scoring between 31.3% and 53.7%. Multi serves not only as a robust evaluation platform but also paves the way for the development of expert-level AI.

arxiv情報

著者 Zichen Zhu,Yang Xu,Lu Chen,Jingkai Yang,Yichuan Ma,Yiming Sun,Hailin Wen,Jiaqi Liu,Jinyu Cai,Yingzi Ma,Situo Zhang,Zihan Zhao,Liangtai Sun,Kai Yu
発行日 2024-02-05 16:41:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク