MARIO: MAth Reasoning with code Interpreter Output — A Reproducible Pipeline

要約

大規模言語モデル (LLM) では、自然言語理解タスクにおいて大幅な進歩が見られていますが、真の汎用人工知能を達成するまでには、特に数学的推論能力の欠点に関して、埋めなければならないギャップがまだ残っています。
次のトークンの確率の予測に焦点を当てた LLM トレーニングの固有の性質により、データ駆動型と理論的な観点の両方から、正確な計算を必要とする数学的推論を効果的にモデル化する際に課題が生じると仮定します。
このペーパーでは、データランドスケープを強化し、Python コードインタープリターを利用する機能で強化された新しい数学データセットを導入することで、この課題に対処します。
このデータセットは GSM8K と MATH から派生し、GPT-4 アノテーション、人間によるレビュー、および自己トレーニング プロセスの組み合わせを通じてさらに改良され、元の GSM8K トレーニング セットのエラーが修正されています。
さらに、数学固有の LLM を微調整するための、簡単に複製可能な暫定的なプロトコルを提案します。これにより、GSM8K および MATH データセット上の 7B パラメーター LLM のパフォーマンスが大幅に向上しました。
私たちは LLM における数学的推論の分野を進歩させることに尽力しており、そのためにモデルのチェックポイントを作成し、データセットを公開する予定です。
これにより、コミュニティ内でのさらなる研究開発が促進されることを期待しています。

要約(オリジナル)

Large language models (LLMs) have seen considerable advancements in natural language understanding tasks, yet there remains a gap to bridge before attaining true artificial general intelligence, especially concerning shortcomings in mathematical reasoning capabilities. We postulate that the inherent nature of LLM training, which focuses on predicting probabilities of next token, presents challenges in effectively modeling mathematical reasoning that demands exact calculations, both from data-driven and theoretical standpoints. In this paper, we address this challenge by enriching the data landscape and introducing a novel math dataset, enhanced with a capability to utilize a Python code interpreter. This dataset is derived from GSM8K and MATH and has been further refined through a combination of GPT-4 annotations, human review, and self-training processes, where the errors in the original GSM8K training set have been fixed. Additionally, we propose a tentative, easily replicable protocol for the fine-tuning of math-specific LLMs, which has led to a significant improvement in the performance of a 7B-parameter LLM on the GSM8K and MATH datasets. We are committed to advancing the field of mathematical reasoning in LLMs and, to that end, we have made the model checkpoints and will make the dataset publicly available. We hope this will facilitate further research and development within the community.

arxiv情報

著者 Minpeng Liao,Wei Luo,Chengxi Li,Jing Wu,Kai Fan
発行日 2024-01-16 08:08:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク