要約
GPT-4 などの大規模言語モデル (LLM) は、困難な数学的推論を含む自然言語処理 (NLP) タスクにおいて顕著なパフォーマンスを示しています。
ただし、既存のオープンソース モデルのほとんどは、大規模なインターネット データで事前トレーニングされているだけで、数学関連の最適化は行われていません。
この論文では、私たちが提案する Evol-Instruct Feedback (RLEIF) による強化学習法を数学の領域に適用することで、外部の Python ツールを使用せずに LLM の数学的 CoT 推論能力を強化する WizardMath を紹介します。
GSM8k と MATH という 2 つの数学的推論ベンチマークに関する広範な実験を通じて、モデルの並外れた機能を明らかにしました。
注目すべきことに、WizardMath-Mistral 7B は、より高いデータ効率により、トップレベルのオープンソース LLM を大幅に上回っています。
さらに、WizardMath 70B は GPT-3.5-Turbo、Claude 2、Gemini Pro、および GPT-4-初期バージョンよりも優れたパフォーマンスを発揮します。
さらに、私たちの予備的な調査では、優れた数学的パフォーマンスを達成する上で、命令の進化とプロセスの監視が極めて重要な役割を果たしていることが明らかになりました。
詳細については、https://github.com/nlpxucan/WizardLM を参照してください。
要約(オリジナル)
Large language models (LLMs), such as GPT-4, have shown remarkable performance in natural language processing (NLP) tasks, including challenging mathematical reasoning. However, most existing open-source models are only pre-trained on large-scale internet data and without math-related optimization. In this paper, we present WizardMath, which enhances the mathematical CoT reasoning abilities of LLMs without using external python tools, by applying our proposed Reinforcement Learning from Evol-Instruct Feedback (RLEIF) method to the domain of math. Through extensive experiments on two mathematical reasoning benchmarks, namely GSM8k and MATH, we reveal the extraordinary capabilities of our model. Remarkably, WizardMath-Mistral 7B surpasses top-tier open-source LLMs by a substantial margin with higher data efficiency. Furthermore, WizardMath 70B even outperforms GPT-3.5-Turbo, Claude 2, Gemini Pro and GPT-4-early-version. Additionally, our preliminary exploration highlights the pivotal role of instruction evolution and process supervision in achieving exceptional math performance. For more details refer to https://github.com/nlpxucan/WizardLM
arxiv情報
著者 | Haipeng Luo,Qingfeng Sun,Can Xu,Pu Zhao,Jianguang Lou,Chongyang Tao,Xiubo Geng,Qingwei Lin,Shifeng Chen,Yansong Tang,Dongmei Zhang |
発行日 | 2025-01-01 13:02:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google