要約
大規模言語モデル(LLM)や大規模マルチモーダルモデル(LMM)は、様々な領域で優れた能力を発揮するが、視覚的文脈における数学的推論能力については、これまで正式に検討されてこなかった。LLMとLMMにこの能力を持たせることは、汎用的なAIアシスタントに不可欠であり、教育、データ分析、科学的発見において有望な可能性を示す。このギャップを埋めるために、多様な数学的・視覚的タスクの課題を統合するように設計されたベンチマークであるMathVistaを紹介する。まず、既存の28の数学と視覚的な質問に答えるデータセットから、主要なタスクの種類、推論スキル、視覚的なコンテキストを分類する。次に、IQTest、FunctionQA、PaperQAの3つの新しいデータセットを構築し、視覚的コンテクストの欠落に対応する。これらの問題は、OCRや画像キャプションを超える深い視覚的理解と、豊富なドメイン固有ツールによる構成的推論を必要とすることが多く、既存のモデルに対する顕著な挑戦となっている。我々は、11の著名なオープンソースおよびプロプライエタリな基礎モデル(LLM、ツールで補強されたLLM、LMM)の包括的な評価と、GPT-4Vを用いた初期の実験を行う。最も性能の良いモデルであるMultimodal Bardは、人間の性能の58%(34.8%対60.3%)しか達成しておらず、さらなる改善の余地が十分にあることを示している。この大きなギャップを考慮すると、MathVistaは、数学的に集約的で視覚的に豊かな実世界のタスクに取り組むことができる汎用AIエージェントの開発における将来の研究を促進する。予備テストでは、MathVistaはGPT-4Vにも課題を提示し、ベンチマークの重要性を強調している。このプロジェクトはhttps://mathvista.github.io/。
要約(オリジナル)
Although Large Language Models (LLMs) and Large Multimodal Models (LMMs) exhibit impressive skills in various domains, their ability for mathematical reasoning within visual contexts has not been formally examined. Equipping LLMs and LMMs with this capability is vital for general-purpose AI assistants and showcases promising potential in education, data analysis, and scientific discovery. To bridge this gap, we present MathVista, a benchmark designed to amalgamate challenges from diverse mathematical and visual tasks. We first taxonomize the key task types, reasoning skills, and visual contexts from the literature to guide our selection from 28 existing math-focused and visual question answering datasets. Then, we construct three new datasets, IQTest, FunctionQA, and PaperQA, to accommodate for missing types of visual contexts. The problems featured often require deep visual understanding beyond OCR or image captioning, and compositional reasoning with rich domain-specific tools, thus posing a notable challenge to existing models. We conduct a comprehensive evaluation of 11 prominent open-source and proprietary foundation models (LLMs, LLMs augmented with tools, and LMMs), and early experiments with GPT-4V. The best-performing model, Multimodal Bard, achieves only 58% of human performance (34.8% vs 60.3%), indicating ample room for further improvement. Given this significant gap, MathVista fuels future research in the development of general-purpose AI agents capable of tackling mathematically intensive and visually rich real-world tasks. Preliminary tests show that MathVista also presents challenges to GPT-4V, underscoring the benchmark’s importance. The project is available at https://mathvista.github.io/.
arxiv情報
著者 | Pan Lu,Hritik Bansal,Tony Xia,Jiacheng Liu,Chunyuan Li,Hannaneh Hajishirzi,Hao Cheng,Kai-Wei Chang,Michel Galley,Jianfeng Gao |
発行日 | 2023-10-03 17:57:24+00:00 |
arxivサイト | arxiv_id(pdf) |