要約
チェーンオブテーブル(COT)推論は、大規模な言語モデル(LLM)の数学的推論能力を高めるために広く使用されています。
COT軌道のプロセス監督の導入は、テスト時間スケーリングの改善に関する議論を引き起こし、それによりこれらのモデルのシステム2スタイルの思考機能のロックを解除しました。
ただし、マルチモーダル数学的推論では、高品質のCOTトレーニングデータの希少性により、既存のモデルが意図的な推論と微調整された検証の両方を達成することを妨げています。
この作業では、マルチモーダル数学的推論にシステム2スタイルの思考を紹介する新しいフレームワークを提案します。
COTの蒸留、軌跡形式の書き換え、およびフォーマット統合を統合する3モジュールCOTデータ合成プロセスを導入します。
このプロセスは、高品質のCOT推論命令微調整データセットであるMMATHCOT-1Mを生成します。
さらに、視覚的な接地の忠実度と演ductive的なチェーンの妥当性の両方を対象としたデュアルビュー軌道ラベルの自動化を実装し、Dualmath-1.1Mデータセットをもたらします。
Mmathcot-1MでトレーニングされたURSA-8Bモデルは、6つの一般的な推論ベンチマークで同様にサイズのマルチモーダルLLMの間で、新しい最先端(SOTA)パフォーマンスを実現します。
DualMath-1.1M DatasetでURSA-8Bをさらにトレーニングすると、URSA-8Bのテスト時間パフォーマンスを向上させ、GPT-4oのような強力なクローズドソースマルチモーダルMLLMを上回る検証剤であるURSA-RM-8Bが生成されます。
モデルの重み、トレーニングデータ、およびコードはオープンソースにされています:https://github.com/ursa-math/ursa-math。
要約(オリジナル)
Chain-of-Thought (CoT) reasoning is widely used to enhance the mathematical reasoning capabilities of large language models (LLMs). The introduction of process supervision for CoT trajectories has sparked discussions on improving test-time scaling, thereby unlocking the System 2-style thinking capabilities of these models. However, in multimodal mathematical reasoning, the scarcity of high-quality CoT training data has hindered existing models from achieving both deliberate reasoning and fine-grained verification. In this work, we propose a novel framework that introduces System 2-style thinking to multimodal mathematical reasoning. We introduce a three-module CoT data synthesis process that integrates CoT distillation, trajectory-format rewriting, and format unification. This process generates MMathCoT-1M, a high-quality CoT reasoning instruction fine-tuning dataset. Furthermore, we implement a dual-view trajectory labeling automation that targets both visual grounding fidelity and deductive chain validity, resulting in the DualMath-1.1M dataset. The URSA-8B model, trained on MMathCoT-1M, achieves new state-of-the-art (SOTA) performance among similarly sized multimodal LLMs on six popular reasoning benchmarks. Training URSA-8B further on the DualMath-1.1M dataset yields URSA-RM-8B, a verifier that enhances URSA-8B’s test-time performance and surpasses strong closed-source multimodal MLLMs like GPT-4o. The model weights, training data, and code have been open-sourced: https://github.com/URSA-MATH/URSA-MATH.
arxiv情報
著者 | Ruilin Luo,Zhuofan Zheng,Yifan Wang,Yiyao Yu,Xinzhe Ni,Zicheng Lin,Jin Zeng,Yujiu Yang |
発行日 | 2025-02-12 16:49:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google