Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark

要約

テキストと画像の両方を有機的に推論する能力は人間の知能の柱ですが、そのようなマルチモーダル推論を実行するマルチモーダル大規模言語モデル (MLLM) の能力はまだ研究されていません。
既存のベンチマークは、テキスト主体の推論を強調したり、浅い視覚的手がかりに依存したりすることが多く、統合された視覚的推論とテキストによる推論を適切に評価できません。
数学、物理学、化学、コーディングにわたる有機的なマルチモーダル推論を対象としたベンチマークである EMMA (Enhanced MultiModal reAsoning) を紹介します。
EMMA タスクでは、各モダリティで個別に推論することでは対処できない高度なクロスモーダル推論が必要であり、MLLM の推論機能に強化されたテスト スイートを提供します。
EMMA での最先端の MLLM の評価では、思考連鎖プロンプトやテスト時のコンピューティング スケーリングのパフォーマンスが低いなどの高度な技術を使用した場合でも、複雑なマルチモーダルおよびマルチステップの推論タスクの処理に重大な制限があることが明らかになりました。
これらの発見は、マルチモーダルにおける人間の推論とモデルの推論の間のギャップを埋めるために、改良されたマルチモーダル アーキテクチャとトレーニング パラダイムの必要性を強調しています。

要約(オリジナル)

The ability to organically reason over and with both text and images is a pillar of human intelligence, yet the ability of Multimodal Large Language Models (MLLMs) to perform such multimodal reasoning remains under-explored. Existing benchmarks often emphasize text-dominant reasoning or rely on shallow visual cues, failing to adequately assess integrated visual and textual reasoning. We introduce EMMA (Enhanced MultiModal reAsoning), a benchmark targeting organic multimodal reasoning across mathematics, physics, chemistry, and coding. EMMA tasks demand advanced cross-modal reasoning that cannot be addressed by reasoning independently in each modality, offering an enhanced test suite for MLLMs’ reasoning capabilities. Our evaluation of state-of-the-art MLLMs on EMMA reveals significant limitations in handling complex multimodal and multi-step reasoning tasks, even with advanced techniques like Chain-of-Thought prompting and test-time compute scaling underperforming. These findings underscore the need for improved multimodal architectures and training paradigms to close the gap between human and model reasoning in multimodality.

arxiv情報

著者 Yunzhuo Hao,Jiawei Gu,Huichen Will Wang,Linjie Li,Zhengyuan Yang,Lijuan Wang,Yu Cheng
発行日 2025-01-09 18:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク