URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

要約

思考連鎖 (CoT) 推論は、大規模言語モデル (LLM) の数学的推論に広く適用されています。
最近、CoT 軌道に対する微分プロセス監視の導入により、テスト時のスケーリング機能の強化に関する議論が活発化し、それによってこれらのモデルの可能性が高まりました。
しかし、マルチモーダル数学的推論では、高品質の CoT トレーニング データの不足により、既存のモデルが高精度の CoT 推論を達成することが妨げられ、テスト時間中の推論の可能性の実現が制限されてきました。
この研究では、CoT 蒸留、トラジェクトリ形式の書き換え、形式の統一を統合する 3 つのモジュールの合成戦略を提案します。
これにより、マルチモーダル数学における高品質の CoT 推論命令微調整データセット、MMathCoT-1M が生成されます。
複数のマルチモーダル数学ベンチマークで、トレーニング済み URSA-7B モデルの最先端 (SOTA) パフォーマンスを包括的に検証します。
テスト時間のスケーリングについては、DualMath-1.1M として知られるプロセス アノテーション データセットを自動的に生成する、解釈とロジックの両方に焦点を当てたデータ合成戦略を導入します。
DualMath-1.1M で URSA-7B をさらにトレーニングすることで、CoT 推論能力から堅牢な監視能力に移行します。
トレーニングされた URSA-RM-7B は検証者として機能し、テスト時の URSA-7B のパフォーマンスを効果的に強化します。
URSA-RM-7B は、優れた配布外 (OOD) 検証機能も実証し、その汎用性を示しています。
モデルの重み、トレーニング データ、コードはオープンソース化されます。

要約(オリジナル)

Chain-of-thought (CoT) reasoning has been widely applied in the mathematical reasoning of Large Language Models (LLMs). Recently, the introduction of derivative process supervision on CoT trajectories has sparked discussions on enhancing scaling capabilities during test time, thereby boosting the potential of these models. However, in multimodal mathematical reasoning, the scarcity of high-quality CoT training data has hindered existing models from achieving high-precision CoT reasoning and has limited the realization of reasoning potential during test time. In this work, we propose a three-module synthesis strategy that integrates CoT distillation, trajectory-format rewriting, and format unification. It results in a high-quality CoT reasoning instruction fine-tuning dataset in multimodal mathematics, MMathCoT-1M. We comprehensively validate the state-of-the-art (SOTA) performance of the trained URSA-7B model on multiple multimodal mathematical benchmarks. For test-time scaling, we introduce a data synthesis strategy that automatically generates process annotation datasets, known as DualMath-1.1M, focusing on both interpretation and logic. By further training URSA-7B on DualMath-1.1M, we transition from CoT reasoning capabilities to robust supervision abilities. The trained URSA-RM-7B acts as a verifier, effectively enhancing the performance of URSA-7B at test time. URSA-RM-7B also demonstrates excellent out-of-distribution (OOD) verifying capabilities, showcasing its generalization. Model weights, training data and code will be open-sourced.

arxiv情報

著者 Ruilin Luo,Zhuofan Zheng,Yifan Wang,Yiyao Yu,Xinzhe Ni,Zicheng Lin,Jin Zeng,Yujiu Yang
発行日 2025-01-08 18:49:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク