要約
思考連鎖 (CoT) 推論は、大規模言語モデル (LLM) の数学的推論機能を強化するために広く使用されています。
CoT 軌跡のプロセス監視の導入により、テスト時間のスケーリングの改善に関する議論が活発化し、それによってこれらのモデルのシステム 2 スタイルの思考能力が解放されます。
しかし、マルチモーダル数学的推論では、高品質の CoT トレーニング データが不足しているため、既存のモデルが意図的な推論と詳細な検証の両方を達成することが妨げられています。
この研究では、システム 2 スタイルの思考をマルチモーダルな数学的推論に導入する新しいフレームワークを提案します。
CoT 蒸留、軌跡フォーマット書き換え、フォーマット統一を統合する 3 つのモジュールからなる CoT データ合成プロセスを紹介します。
このプロセスにより、高品質の CoT 推論命令微調整データセットである MMathCoT-1M が生成されます。
さらに、視覚的なグラウンディング忠実度と演繹的チェーンの妥当性の両方をターゲットとするデュアルビュー軌道ラベリングの自動化を実装し、その結果、DualMath-1.1M データセットが得られます。
MMathCoT-1M でトレーニングされた URSA-8B モデルは、6 つの一般的な推論ベンチマークで、同様のサイズのマルチモーダル LLM の中で新しい最先端 (SOTA) パフォーマンスを達成します。
DualMath-1.1M データセットで URSA-8B をさらにトレーニングすると、URSA-8B のテスト時のパフォーマンスを強化し、GPT-4o のような強力なクローズドソース マルチモーダル MLLM を超える検証ツールである URSA-RM-8B が得られます。
モデルの重み、トレーニング データ、コードはオープンソース化されています: https://github.com/URSA-MATH/URSA-MATH。
要約(オリジナル)
Chain-of-Thought (CoT) reasoning is widely used to enhance the mathematical reasoning capabilities of large language models (LLMs). The introduction of process supervision for CoT trajectories has sparked discussions on improving test-time scaling, thereby unlocking the System 2-style thinking capabilities of these models. However, in multimodal mathematical reasoning, the scarcity of high-quality CoT training data has hindered existing models from achieving both deliberate reasoning and fine-grained verification. In this work, we propose a novel framework that introduces System 2-style thinking to multimodal mathematical reasoning. We introduce a three-module CoT data synthesis process that integrates CoT distillation, trajectory-format rewriting, and format unification. This process generates MMathCoT-1M, a high-quality CoT reasoning instruction fine-tuning dataset. Furthermore, we implement a dual-view trajectory labeling automation that targets both visual grounding fidelity and deductive chain validity, resulting in the DualMath-1.1M dataset. The URSA-8B model, trained on MMathCoT-1M, achieves new state-of-the-art (SOTA) performance among similarly sized multimodal LLMs on six popular reasoning benchmarks. Training URSA-8B further on the DualMath-1.1M dataset yields URSA-RM-8B, a verifier that enhances URSA-8B’s test-time performance and surpasses strong closed-source multimodal MLLMs like GPT-4o. The model weights, training data, and code have been open-sourced: https://github.com/URSA-MATH/URSA-MATH.
arxiv情報
著者 | Ruilin Luo,Zhuofan Zheng,Yifan Wang,Yiyao Yu,Xinzhe Ni,Zicheng Lin,Jin Zeng,Yujiu Yang |
発行日 | 2025-01-23 13:16:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google