MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs

要約

論理的推論は、人間の知性の基本的な側面であり、マルチモーダル大手言語モデル(MLLM)にとって重要な能力です。
マルチモーダル推論の大幅な進歩にもかかわらず、既存のベンチマークは、論理的推論タイプの明示的な分類がないため、推論の不明確な理解のために、推論能力を包括的に評価することができません。
これらの問題に対処するために、MLLMSの推論能力を評価するために設計された包括的なベンチマークであるMME-Reasoningを紹介します。
データを慎重にキュレートして、各質問が知覚スキルや知識の幅ではなく推論能力を効果的に評価し、評価プロトコルを拡張して多様な質問の評価をカバーします。
私たちの評価は、論理的推論能力の全体的な評価にさらされた場合、最先端のMLLMの実質的な制限を明らかにしています。
最も先進的なMLLMでさえ、包括的な論理的推論で限られたパフォーマンスを示しており、推論タイプにわたって顕著なパフォーマンスの不均衡があります。
さらに、「思考モード」やルールベースのRLなどのアプローチの詳細な分析を実施しました。これは、一般に推論能力を高めると考えられています。
これらの調査結果は、多様な論理的推論シナリオにおける現在のMLLMの重要な制限とパフォーマンスの不均衡を強調し、推論能力の理解と評価に関する包括的かつ体系的な洞察を提供します。

要約(オリジナル)

Logical reasoning is a fundamental aspect of human intelligence and an essential capability for multimodal large language models (MLLMs). Despite the significant advancement in multimodal reasoning, existing benchmarks fail to comprehensively evaluate their reasoning abilities due to the lack of explicit categorization for logical reasoning types and an unclear understanding of reasoning. To address these issues, we introduce MME-Reasoning, a comprehensive benchmark designed to evaluate the reasoning ability of MLLMs, which covers all three types of reasoning (i.e., inductive, deductive, and abductive) in its questions. We carefully curate the data to ensure that each question effectively evaluates reasoning ability rather than perceptual skills or knowledge breadth, and extend the evaluation protocols to cover the evaluation of diverse questions. Our evaluation reveals substantial limitations of state-of-the-art MLLMs when subjected to holistic assessments of logical reasoning capabilities. Even the most advanced MLLMs show limited performance in comprehensive logical reasoning, with notable performance imbalances across reasoning types. In addition, we conducted an in-depth analysis of approaches such as “thinking mode” and Rule-based RL, which are commonly believed to enhance reasoning abilities. These findings highlight the critical limitations and performance imbalances of current MLLMs in diverse logical reasoning scenarios, providing comprehensive and systematic insights into the understanding and evaluation of reasoning capabilities.

arxiv情報

著者 Jiakang Yuan,Tianshuo Peng,Yilei Jiang,Yiting Lu,Renrui Zhang,Kaituo Feng,Chaoyou Fu,Tao Chen,Lei Bai,Bo Zhang,Xiangyu Yue
発行日 2025-05-27 15:23:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク