M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models

要約

多言語マルチモーダル推論は、人間レベルの知能を達成するための中心的なコンポーネントです。
ただし、多言語マルチモーダル推論の既存のベンチマークのほとんどは、パフォーマンスが異なるモデルを区別するのに苦労しています。
視覚的な機能を持たない言語モデルでも、簡単に高スコアを達成できます。
このため、主要な多言語マルチモーダル モデルの包括的な評価はほとんど検討されていないままになっています。
この研究では、多分野、多言語、多峰性の理解と推論の能力を評価するための、新しくて挑戦的なベンチマークである M4U を紹介します。
M4U には、科学、工学、ヘルスケアの 16 サブフィールドにわたる 64 分野をカバーする 8,931 のサンプルが中国語、英語、ドイツ語で含まれています。
M4U を使用して、外部ツールを使用して 21 の主要な大規模マルチモーダル モデル (LMM) と大規模言語モデル (LLM) の広範な評価を実施します。
評価結果によると、最先端のモデルである GPT-4o は、M4U 上で平均 47.6% の精度しか達成できません。
さらに、主要な LMM が重要な言語の好みを示していることが観察されています。
私たちの綿密な分析によると、GPT-4o を含む主要な LMM は、質問がドイツ語であるのに中国語の重要なテキスト情報を含む画像など、言語をまたがるマルチモーダルな質問でプロンプトが表示されると、パフォーマンスが低下することが示されています。
私たちは、M4U が、多言語マルチモーダル推論機能に基づいて LMM を体系的に評価し、その開発を監視するための重要なツールとして機能すると信じています。
ホームページ、コード、データは公開されています。

要約(オリジナル)

Multilingual multimodal reasoning is a core component in achieving human-level intelligence. However, most existing benchmarks for multilingual multimodal reasoning struggle to differentiate between models of varying performance; even language models without visual capabilities can easily achieve high scores. This leaves a comprehensive evaluation of leading multilingual multimodal models largely unexplored. In this work, we introduce M4U, a novel and challenging benchmark for assessing the capability of multi-discipline multilingual multimodal understanding and reasoning. M4U contains 8,931 samples covering 64 disciplines across 16 subfields in Science, Engineering, and Healthcare in Chinese, English, and German. Using M4U, we conduct extensive evaluations of 21 leading Large Multimodal Models (LMMs) and Large Language Models (LLMs) with external tools. The evaluation results show that the state-of-the-art model, GPT-4o, achieves only 47.6% average accuracy on M4U. Additionally, we observe that the leading LMMs exhibit significant language preferences. Our in-depth analysis indicates that leading LMMs, including GPT-4o, suffer performance degradation when prompted with cross-lingual multimodal questions, such as images with key textual information in Chinese while the question is in German. We believe that M4U can serve as a crucial tool for systematically evaluating LMMs based on their multilingual multimodal reasoning capabilities and monitoring their development. The homepage, codes and data are public available.

arxiv情報

著者 Hongyu Wang,Jiayu Xu,Senwei Xie,Ruiping Wang,Jialin Li,Zhaojie Xie,Bin Zhang,Chuyan Xiong,Xilin Chen
発行日 2024-05-24 15:25:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク