要約
マルチモーダル大規模言語モデル (MLLM) の目覚ましい進歩は、視覚的なコンテキストにおける優れたパフォーマンスにより、比類のない注目を集めています。
しかし、視覚的な数学の問題解決における彼らの能力は、依然として十分に評価され理解されていません。
現在のベンチマークを調査して、テキスト形式の質問内に過剰なビジュアル コンテンツを組み込んでいます。これにより、MLLM が入力図を真に解釈せずに答えを推測するのに役立つ可能性があります。
この目的を達成するために、MLLM の公平かつ詳細な評価のために設計された総合的なビジュアル数学ベンチマークである MathVerse を紹介します。
私たちは、公的に入手可能なソースから、図を含む 2,612 個の高品質で複数の科目の数学の問題を注意深く収集しています。
次に、各問題は人間のアノテーターによって 6 つの異なるバージョンに変換され、それぞれがマルチモダリティでさまざまな程度の情報コンテンツを提供し、合計 15,000 のテスト サンプルに貢献します。
このアプローチにより、MathVerse は、MLLM が数学的推論のための視覚的な図を本当に理解できるかどうか、またどの程度理解できるかを包括的に評価できます。
さらに、出力された回答をきめ細かく評価するための思考連鎖 (CoT) 評価戦略を提案します。
真か偽かを単純に判断するのではなく、GPT-4(V) を使用して重要な推論ステップを適応的に抽出し、詳細なエラー分析で各ステップをスコア付けします。これにより、MLLM による中間 CoT 推論の品質を明らかにすることができます。
MathVerse ベンチマークが、MLLM の将来の開発を導く独自の洞察を提供することを願っています。
プロジェクトページ: https://mathverse-cuhk.github.io
要約(オリジナル)
The remarkable progress of Multi-modal Large Language Models (MLLMs) has garnered unparalleled attention, due to their superior performance in visual contexts. However, their capabilities in visual math problem-solving remain insufficiently evaluated and understood. We investigate current benchmarks to incorporate excessive visual content within textual questions, which potentially assist MLLMs in deducing answers without truly interpreting the input diagrams. To this end, we introduce MathVerse, an all-around visual math benchmark designed for an equitable and in-depth evaluation of MLLMs. We meticulously collect 2,612 high-quality, multi-subject math problems with diagrams from publicly available sources. Each problem is then transformed by human annotators into six distinct versions, each offering varying degrees of information content in multi-modality, contributing to 15K test samples in total. This approach allows MathVerse to comprehensively assess whether and how much MLLMs can truly understand the visual diagrams for mathematical reasoning. In addition, we propose a Chain-of-Thought (CoT) evaluation strategy for a fine-grained assessment of the output answers. Rather than naively judging True or False, we employ GPT-4(V) to adaptively extract crucial reasoning steps, and then score each step with detailed error analysis, which can reveal the intermediate CoT reasoning quality by MLLMs. We hope the MathVerse benchmark may provide unique insights to guide the future development of MLLMs. Project page: https://mathverse-cuhk.github.io
arxiv情報
著者 | Renrui Zhang,Dongzhi Jiang,Yichi Zhang,Haokun Lin,Ziyu Guo,Pengshuo Qiu,Aojun Zhou,Pan Lu,Kai-Wei Chang,Peng Gao,Hongsheng Li |
発行日 | 2024-03-21 17:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google