MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code

要約

コードは、その精度と精度により、大規模な言語モデルの数学的推論能力を強化するのに効果的であることが示されています。
継続的な数学的事前トレーニングを伴う以前の研究には、数学関連のパッケージを利用するコードが含まれることがよくあります。これらのパッケージは、数学的推論に直接焦点を当てるのではなく、主にエンジニアリング、機械学習、信号処理、モジュール テストなどの分野向けに設計されています。
この論文では、継続的な事前トレーニングのための対応する推論ステップを伴う数学的コードを生成する新しい方法を紹介します。
私たちのアプローチは、数学関連の Web データ、数学パッケージを使用したコード、数学の教科書、合成データを組み込むことにより、高品質の数学的継続事前トレーニング データセットを構築することから始まります。
次に、以前に収集したデータセットから LaTeX 式、式に必要な条件、式の結果を抽出して推論ステップを構築します。
この抽出された情報に基づいて、対応するコードを生成し、数学的推論プロセスを正確に把握します。
生成されたコードを各推論ステップに追加すると、ペアの自然言語推論ステップとそれらに対応するコードで構成されるデータが生成されます。
このデータを元のデータセットと組み合わせると、19.2 億トークンの高性能な数学的事前トレーニング コーパスが生成され、これを MathCode-Pile と名付けます。
このコーパスを使用していくつかの一般的な基本モデルをトレーニングすると、数学的能力が大幅に向上し、MathCoder2 ファミリーのモデルの作成につながります。
当社のデータ処理およびトレーニング コードはすべてオープンソースであり、データ収集およびトレーニング パイプライン全体の完全な透明性と簡単な再現性を保証します。
コードは https://github.com/mathllm/MathCoder2 でリリースされています。

要約(オリジナル)

Code has been shown to be effective in enhancing the mathematical reasoning abilities of large language models due to its precision and accuracy. Previous works involving continued mathematical pretraining often include code that utilizes math-related packages, which are primarily designed for fields such as engineering, machine learning, signal processing, or module testing, rather than being directly focused on mathematical reasoning. In this paper, we introduce a novel method for generating mathematical code accompanied with corresponding reasoning steps for continued pretraining. Our approach begins with the construction of a high-quality mathematical continued pretraining dataset by incorporating math-related web data, code using mathematical packages, math textbooks, and synthetic data. Next, we construct reasoning steps by extracting LaTeX expressions, the conditions needed for the expressions, and the results of the expressions from the previously collected dataset. Based on this extracted information, we generate corresponding code to accurately capture the mathematical reasoning process. Appending the generated code to each reasoning step results in data consisting of paired natural language reasoning steps and their corresponding code. Combining this data with the original dataset results in a 19.2B-token high-performing mathematical pretraining corpus, which we name MathCode-Pile. Training several popular base models with this corpus significantly improves their mathematical abilities, leading to the creation of the MathCoder2 family of models. All of our data processing and training code is open-sourced, ensuring full transparency and easy reproducibility of the entire data collection and training pipeline. The code is released at https://github.com/mathllm/MathCoder2 .

arxiv情報

著者 Zimu Lu,Aojun Zhou,Ke Wang,Houxing Ren,Weikang Shi,Junting Pan,Mingjie Zhan,Hongsheng Li
発行日 2024-10-10 17:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク