要約
大規模マルチモーダル モデル (LMM) におけるマルチモーダル数学推論の評価を進めるために、このペーパーでは新しいベンチマーク MM-MATH を紹介します。
MM-MATH は、視覚的なコンテキストを備えた 5,929 問の自由形式の中学校数学問題で構成されており、難易度、学年レベル、知識ポイントにわたってきめ細かく分類されています。
二項回答の比較に依存する既存のベンチマークとは異なり、MM-MATH には結果とプロセスの両方の評価が組み込まれています。
プロセス評価では、LMM をジャッジとして使用して解決策のステップを自動的に分析し、エラーを特定して特定のエラー タイプに分類します。
MM-MATH の 10 個のモデルを広範に評価した結果、既存の LMM の重大な課題が明らかになり、視覚情報の利用が限られており、高難易度の問題に苦戦していることが浮き彫りになりました。
最もパフォーマンスの高いモデルは、MM-MATH では 31% の精度しか達成していませんが、人間の場合は 82% です。
これは、既存のモデルに対するベンチマークの困難な性質と、現在のモデルと人間のマルチモーダル推論能力の間に大きなギャップがあることを浮き彫りにしています。
私たちのプロセス評価では、図の誤解が最も一般的なエラーであり、全エラーケースの半分以上を占めていることが明らかになり、マルチモーダル推論における画像理解を改善する必要性が強調されています。
要約(オリジナル)
To advance the evaluation of multimodal math reasoning in large multimodal models (LMMs), this paper introduces a novel benchmark, MM-MATH. MM-MATH consists of 5,929 open-ended middle school math problems with visual contexts, with fine-grained classification across difficulty, grade level, and knowledge points. Unlike existing benchmarks relying on binary answer comparison, MM-MATH incorporates both outcome and process evaluations. Process evaluation employs LMM-as-a-judge to automatically analyze solution steps, identifying and categorizing errors into specific error types. Extensive evaluation of ten models on MM-MATH reveals significant challenges for existing LMMs, highlighting their limited utilization of visual information and struggles with higher-difficulty problems. The best-performing model achieves only 31% accuracy on MM-MATH, compared to 82% for humans. This highlights the challenging nature of our benchmark for existing models and the significant gap between the multimodal reasoning capabilities of current models and humans. Our process evaluation reveals that diagram misinterpretation is the most common error, accounting for more than half of the total error cases, underscoring the need for improved image comprehension in multimodal reasoning.
arxiv情報
著者 | Kai Sun,Yushi Bai,Ji Qi,Lei Hou,Juanzi Li |
発行日 | 2024-07-02 12:46:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google