要約
マルチモーダル大規模言語モデル (MLLM) の開発により、数学的問題に関連したマルチモーダル モデルの評価は貴重な研究分野になりました。
マルチモーダルなビジュアルテキスト数学的推論は、MLLM の理解力と複雑な複数ステップの定量的推論能力を評価するための重要な指標として機能します。
ただし、これまでのマルチモーダル数学ベンチマークでは、視覚情報とテキスト情報が十分に統合されていませんでした。
このギャップに対処するために、私たちは視覚情報とテキスト情報を組み合わせた理解と応用を重視する新しいベンチマークである MathScape を提案しました。
MathScape は、写真ベースの数学問題シナリオを評価し、カテゴリカル階層アプローチを通じて MLLM の理論的理解と応用能力を評価するように設計されています。
私たちは 11 の高度な MLLM に対して多次元評価を実施し、最も洗練されたモデルであってもベンチマークが困難であることを明らかにしました。
評価結果を分析することで、MLLM の限界を特定し、モデルのパフォーマンスを向上させるための貴重な洞察を提供します。
要約(オリジナル)
With the development of Multimodal Large Language Models (MLLMs), the evaluation of multimodal models in the context of mathematical problems has become a valuable research field. Multimodal visual-textual mathematical reasoning serves as a critical indicator for evaluating the comprehension and complex multi-step quantitative reasoning abilities of MLLMs. However, previous multimodal math benchmarks have not sufficiently integrated visual and textual information. To address this gap, we proposed MathScape, a new benchmark that emphasizes the understanding and application of combined visual and textual information. MathScape is designed to evaluate photo-based math problem scenarios, assessing the theoretical understanding and application ability of MLLMs through a categorical hierarchical approach. We conduct a multi-dimensional evaluation on 11 advanced MLLMs, revealing that our benchmark is challenging even for the most sophisticated models. By analyzing the evaluation results, we identify the limitations of MLLMs, offering valuable insights for enhancing model performance.
arxiv情報
著者 | Minxuan Zhou,Hao Liang,Tianpeng Li,Zhiyu Wu,Mingan Lin,Linzhuang Sun,Yaqi Zhou,Yan Zhang,Xiaoqin Huang,Yicong Chen,Yujing Qiao,Weipeng Chen,Bin Cui,Wentao Zhang,Zenan Zhou |
発行日 | 2024-08-14 13:23:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google