要約
このペーパーでは、Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU) ベンチマークの堅牢なバージョンである MMMU-Pro を紹介します。
MMMU-Pro は、MMMU に基づく 3 段階のプロセスを通じて、マルチモーダル モデルの真の理解と推論能力を厳密に評価します: (1) テキストのみのモデルで回答可能な質問をフィルタリングする、(2) 候補の選択肢を増やす、(3) ビジョンの導入
– 画像内に質問が埋め込まれている入力設定のみ。
この設定では、AI に真に「見る」ことと「読む」ことを同時に要求し、視覚情報とテキスト情報をシームレスに統合するという人間の基本的な認知スキルをテストします。
結果は、モデルのパフォーマンスが MMMU よりも MMMU-Pro で大幅に低く、モデル全体で 16.8% から 26.9% の範囲であることを示しています。
OCR プロンプトと思考連鎖 (CoT) 推論の影響を調査し、OCR プロンプトの効果は最小限である一方、CoT は一般的にパフォーマンスを向上させることがわかりました。
MMMU-Pro は、現実世界のシナリオを厳密に模倣し、マルチモーダル AI の将来の研究に貴重な方向性を提供する、より厳密な評価ツールを提供します。
要約(オリジナル)
This paper introduces MMMU-Pro, a robust version of the Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark. MMMU-Pro rigorously assesses multimodal models’ true understanding and reasoning capabilities through a three-step process based on MMMU: (1) filtering out questions answerable by text-only models, (2) augmenting candidate options, and (3) introducing a vision-only input setting where questions are embedded within images. This setting challenges AI to truly ‘see’ and ‘read’ simultaneously, testing a fundamental human cognitive skill of seamlessly integrating visual and textual information. Results show that model performance is substantially lower on MMMU-Pro than on MMMU, ranging from 16.8% to 26.9% across models. We explore the impact of OCR prompts and Chain of Thought (CoT) reasoning, finding that OCR prompts have minimal effect while CoT generally improves performance. MMMU-Pro provides a more rigorous evaluation tool, closely mimicking real-world scenarios and offering valuable directions for future research in multimodal AI.
arxiv情報
著者 | Xiang Yue,Tianyu Zheng,Yuansheng Ni,Yubo Wang,Kai Zhang,Shengbang Tong,Yuxuan Sun,Ming Yin,Botao Yu,Ge Zhang,Huan Sun,Yu Su,Wenhu Chen,Graham Neubig |
発行日 | 2024-09-04 15:31:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google