Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

要約

このレポートでは、数学に特化した一連の大規模言語モデル、Qwen2.5-Math および Qwen2.5-Math-Instruct-1.5B/7B/72B を紹介します。
Qwen2.5 シリーズの核となる革新は、トレーニング前およびトレーニング後から推論に至るまで、パイプライン全体を通じて自己改善の哲学を統合することにあります。 (1) トレーニング前段階では、Qwen2-Math-Instruct は
大規模で高品質の数学的データを生成するために利用されます。
(2) トレーニング後のフェーズでは、Qwen2-Math-Instruct から大規模なサンプリングを実行して報酬モデル (RM) を開発します。
この RM は、教師あり微調整 (SFT) におけるデータの反復進化に適用されます。
より強力な SFT モデルを使用すると、RM のトレーニングと更新を繰り返し行うことが可能になり、これにより次の SFT データ反復ラウンドがガイドされます。
最終的な SFT モデルでは、強化学習に究極の RM を採用し、Qwen2.5-Math-Instruct が完成しました。
(3) さらに、推論段階では、RM を使用してサンプリングをガイドし、モデルのパフォーマンスを最適化します。
Qwen2.5-Math-Instruct は中国語と英語の両方をサポートし、思考連鎖 (CoT) やツール統合推論 (TIR) などの高度な数学的推論機能を備えています。
GSM8K、MATH、GaoKao、AMC23、AIME24 など、英語と中国語の両方で作成された 10 個の数学データセットでモデルを評価し、小学校レベルから数学コンテストの問題まで幅広い難易度をカバーしています。

要約(オリジナル)

In this report, we present a series of math-specific large language models: Qwen2.5-Math and Qwen2.5-Math-Instruct-1.5B/7B/72B. The core innovation of the Qwen2.5 series lies in integrating the philosophy of self-improvement throughout the entire pipeline, from pre-training and post-training to inference: (1) During the pre-training phase, Qwen2-Math-Instruct is utilized to generate large-scale, high-quality mathematical data. (2) In the post-training phase, we develop a reward model (RM) by conducting massive sampling from Qwen2-Math-Instruct. This RM is then applied to the iterative evolution of data in supervised fine-tuning (SFT). With a stronger SFT model, it’s possible to iteratively train and update the RM, which in turn guides the next round of SFT data iteration. On the final SFT model, we employ the ultimate RM for reinforcement learning, resulting in the Qwen2.5-Math-Instruct. (3) Furthermore, during the inference stage, the RM is used to guide sampling, optimizing the model’s performance. Qwen2.5-Math-Instruct supports both Chinese and English, and possess advanced mathematical reasoning capabilities, including Chain-of-Thought (CoT) and Tool-Integrated Reasoning (TIR). We evaluate our models on 10 mathematics datasets in both English and Chinese, such as GSM8K, MATH, GaoKao, AMC23, and AIME24, covering a range of difficulties from grade school level to math competition problems.

arxiv情報

著者 An Yang,Beichen Zhang,Binyuan Hui,Bofei Gao,Bowen Yu,Chengpeng Li,Dayiheng Liu,Jianhong Tu,Jingren Zhou,Junyang Lin,Keming Lu,Mingfeng Xue,Runji Lin,Tianyu Liu,Xingzhang Ren,Zhenru Zhang
発行日 2024-09-18 16:45:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク