MuMath-Code: Combining Tool-Use Large Language Models with Multi-perspective Data Augmentation for Mathematical Reasoning

要約

外部 Python インタプリタと統合されたツール使用の大規模言語モデル (LLM) は、オープンソース LLM の数学的推論機能を大幅に強化しましたが、ツールを使用しない手法では、数学的推論データの増強という別の方向を選択しました。
ただし、上記の 2 つの研究経路を統合し、それぞれの利点を組み合わせる優れた方法はまだ模索されていません。
この作業では、まずマルチパースペクティブなデータ拡張手法を介して新しい数学の質問を組み込み、次にそれらに対するコードネストされたソリューションを合成します。
オープン LLM (Llama-2) は拡張データセット上で微調整され、結果として得られるモデル MuMath-Code ($\mu$-Math-Code) が得られます。
推論フェーズでは、MuMath コードがコードを生成し、外部の Python インタプリタと対話して実行結果を取得します。
したがって、MuMath-Code は、外部ツールとデータ拡張の両方の利点を活用します。
拡張データの利点を最大限に活用するために、私たちは 2 段階のトレーニング戦略を提案します。ステージ 1 では、純粋な CoT データに基づいて Llama-2 を微調整して中間モデルを取得し、その後、コードでネストされたデータでトレーニングします。
ステージ 2 では、結果として得られる MuMath コードを取得します。
当社の MuMath-Code-7B は、GSM8K で 83.8、MATH で 52.4 を達成し、MuMath-Code-70B モデルは、オープンメソッドの中で新しい最先端のパフォーマンスを達成し、GSM8K で 90.7%、MATH で 55.1% を達成しました。
広範な実験により、ツールの使用とデータ拡張の組み合わせ、および 2 段階のトレーニング戦略が検証されています。
私たちは、提案されたデータセットを関連コードとともに一般公開します。

要約(オリジナル)

The tool-use Large Language Models (LLMs) that integrate with external Python interpreters have significantly enhanced mathematical reasoning capabilities for open-source LLMs, while tool-free methods chose another track: augmenting math reasoning data. However, a great method to integrate the above two research paths and combine their advantages remains to be explored. In this work, we firstly include new math questions via multi-perspective data augmenting methods and then synthesize code-nested solutions to them. The open LLMs (i.e., Llama-2) are finetuned on the augmented dataset to get the resulting models, MuMath-Code ($\mu$-Math-Code). During the inference phase, our MuMath-Code generates code and interacts with the external python interpreter to get the execution results. Therefore, MuMath-Code leverages the advantages of both the external tool and data augmentation. To fully leverage the advantages of our augmented data, we propose a two-stage training strategy: In Stage-1, we finetune Llama-2 on pure CoT data to get an intermediate model, which then is trained on the code-nested data in Stage-2 to get the resulting MuMath-Code. Our MuMath-Code-7B achieves 83.8 on GSM8K and 52.4 on MATH, while MuMath-Code-70B model achieves new state-of-the-art performance among open methods — achieving 90.7% on GSM8K and 55.1% on MATH. Extensive experiments validate the combination of tool use and data augmentation, as well as our two-stage training strategy. We release the proposed dataset along with the associated code for public use.

arxiv情報

著者 Shuo Yin,Weihao You,Zhilong Ji,Guoqiang Zhong,Jinfeng Bai
発行日 2024-05-13 08:32:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク