MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

要約

大規模なマルチモーダルモデルのトレーニングに広く使用されている自然言語画像キャプションデータセットは、主に自然シナリオに焦点を当て、問題解決に重要な数学的人物の複雑な詳細を見落とし、マルチモーダル数学的推論における現在のLMMの進歩を妨げます。
この目的のために、コードは対応する図を生成するために必要なすべての情報を本質的にエンコードし、2つのモダリティ間の正確な接続を確立するため、コードをクロスモーダルアラインメントの監督としてレバレバリングすることを提案します。
具体的には、モデルインザループアプローチと画像間モデルとデータセットを共同開発するため、これまでで最大の画像コードデータセットである画像間モデル、FigCodifier、IMGCode-8.6Mデータセットが生まれます。
さらに、figcodififierを利用して、新しい数学的人物を合成し、高品質のマルチモーダル数学命令微調整データセットであるmm-mathinstruct-3mを構築します。
最後に、CrossモーダルアライメントのためにIMGCode-8.6Mで訓練されたMathCoder-VLを提示し、その後マルチモーダル数学の問題解決のためにMM-Mathinstruct-3Mで微調整されます。
私たちのモデルは、6つのメトリックすべてにわたって新しいオープンソースソタを達成します。
特に、Mathvistaのジオメトリ問題解決サブセットでGPT-4OとClaude 3.5ソネットを上回り、8.9%と9.2%の改善を達成しています。
データセットとモデルは、https://github.com/mathllm/mathcoderでリリースされます。

要約(オリジナル)

Natural language image-caption datasets, widely used for training Large Multimodal Models, mainly focus on natural scenarios and overlook the intricate details of mathematical figures that are critical for problem-solving, hindering the advancement of current LMMs in multimodal mathematical reasoning. To this end, we propose leveraging code as supervision for cross-modal alignment, since code inherently encodes all information needed to generate corresponding figures, establishing a precise connection between the two modalities. Specifically, we co-develop our image-to-code model and dataset with model-in-the-loop approach, resulting in an image-to-code model, FigCodifier and ImgCode-8.6M dataset, the largest image-code dataset to date. Furthermore, we utilize FigCodifier to synthesize novel mathematical figures and then construct MM-MathInstruct-3M, a high-quality multimodal math instruction fine-tuning dataset. Finally, we present MathCoder-VL, trained with ImgCode-8.6M for cross-modal alignment and subsequently fine-tuned on MM-MathInstruct-3M for multimodal math problem solving. Our model achieves a new open-source SOTA across all six metrics. Notably, it surpasses GPT-4o and Claude 3.5 Sonnet in the geometry problem-solving subset of MathVista, achieving improvements of 8.9% and 9.2%. The dataset and models will be released at https://github.com/mathllm/MathCoder.

arxiv情報

著者 Ke Wang,Junting Pan,Linda Wei,Aojun Zhou,Weikang Shi,Zimu Lu,Han Xiao,Yunqiao Yang,Houxing Ren,Mingjie Zhan,Hongsheng Li
発行日 2025-05-15 17:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク