CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models

要約

大規模言語モデル(LLM)は、人間の知能の基礎スキルである数学的推論において有望な結果を得ている。ほとんどの先行研究は、テキストによる数学推論データセット(例:MATH、GSM8K)に基づくLLMの性能向上と測定に焦点を当てている。最近では、大規模マルチモーダルモデル(LMM)の有効性を評価するために、英語のマルチモーダル数学データセット(MATHVISTAやMATH-Vなど)を公開している研究者もいる。本論文では、LMMの数学的推論を評価・強化するために、ベンチマーク部と学習部を含む中国語のマルチモーダル数学(CMM-Math)データセットを公開する。CMM-Mathには28,000以上の高品質なサンプルが含まれており、中国の小学校から高校までの12学年にわたる様々なタイプの問題(例:多肢選択問題、穴埋め問題など)と詳細な解答が含まれている。具体的には、視覚的な文脈が問題や意見の中に存在する可能性があり、このデータセットの難易度を高めている。包括的な分析を通して、我々はCMM-Mathデータセットにおける最先端のLMMが課題に直面していることを発見し、LMM開発における更なる改善の必要性を強調する。また、複数の画像とテキストセグメントが混在する入力の問題を扱うために、マルチモーダル数学LMM(Math-LMM)を提案する。我々は、基礎的な事前学習、基礎的な微調整、数学的な微調整を含む3つの段階を用いてモデルを学習する。広範な実験の結果、3つのマルチモーダル数学データセットにおいて、SOTA LMMと比較することで、本モデルが数学推論性能を効果的に向上させることが示された。

要約(オリジナル)

Large language models (LLMs) have obtained promising results in mathematical reasoning, which is a foundational skill for human intelligence. Most previous studies focus on improving and measuring the performance of LLMs based on textual math reasoning datasets (e.g., MATH, GSM8K). Recently, a few researchers have released English multimodal math datasets (e.g., MATHVISTA and MATH-V) to evaluate the effectiveness of large multimodal models (LMMs). In this paper, we release a Chinese multimodal math (CMM-Math) dataset, including benchmark and training parts, to evaluate and enhance the mathematical reasoning of LMMs. CMM-Math contains over 28,000 high-quality samples, featuring a variety of problem types (e.g., multiple-choice, fill-in-the-blank, and so on) with detailed solutions across 12 grade levels from elementary to high school in China. Specifically, the visual context may be present in the questions or opinions, which makes this dataset more challenging. Through comprehensive analysis, we discover that state-of-the-art LMMs on the CMM-Math dataset face challenges, emphasizing the necessity for further improvements in LMM development. We also propose a Multimodal Mathematical LMM (Math-LMM) to handle the problems with mixed input of multiple images and text segments. We train our model using three stages, including foundational pre-training, foundational fine-tuning, and mathematical fine-tuning. The extensive experiments indicate that our model effectively improves math reasoning performance by comparing it with the SOTA LMMs over three multimodal mathematical datasets.

arxiv情報

著者 Wentao Liu,Qianjun Pan,Yi Zhang,Zhuo Liu,Ji Wu,Jie Zhou,Aimin Zhou,Qin Chen,Bo Jiang,Liang He
発行日 2024-11-01 02:21:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク