WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct

要約

GPT-4 などの大規模言語モデル (LLM) は、困難な数学的推論を含む自然言語処理 (NLP) タスクにおいて顕著なパフォーマンスを示しています。
ただし、既存のオープンソース モデルのほとんどは、大規模なインターネット データで事前トレーニングされているだけで、数学関連の最適化は行われていません。
この論文では、私たちが提案する Evol-Instruct Feedback (RLEIF) による強化学習法を数学の領域に適用することにより、Llama-2 の数学的推論能力を強化する WizardMath を紹介します。
GSM8k と MATH という 2 つの数学的推論ベンチマークに関する広範な実験を通じて、モデルの並外れた機能を明らかにしました。
WizardMath は、他のすべてのオープンソース LLM を大幅に上回っています。
さらに、私たちのモデルは、GSM8k 上で ChatGPT-3.5、Claude Instant-1、PaLM-2、Minerva を上回り、同時に MATH 上では Text-davinci-002、PaLM-1、GPT-3 を上回っています。
詳細とモデルの重みは、https://github.com/nlpxucan/WizardLM および https://huggingface.co/WizardLM で公開されています。

要約(オリジナル)

Large language models (LLMs), such as GPT-4, have shown remarkable performance in natural language processing (NLP) tasks, including challenging mathematical reasoning. However, most existing open-source models are only pre-trained on large-scale internet data and without math-related optimization. In this paper, we present WizardMath, which enhances the mathematical reasoning abilities of Llama-2, by applying our proposed Reinforcement Learning from Evol-Instruct Feedback (RLEIF) method to the domain of math. Through extensive experiments on two mathematical reasoning benchmarks, namely GSM8k and MATH, we reveal the extraordinary capabilities of our model. WizardMath surpasses all other open-source LLMs by a substantial margin. Furthermore, our model even outperforms ChatGPT-3.5, Claude Instant-1, PaLM-2 and Minerva on GSM8k, simultaneously surpasses Text-davinci-002, PaLM-1 and GPT-3 on MATH. More details and model weights are public at https://github.com/nlpxucan/WizardLM and https://huggingface.co/WizardLM.

arxiv情報

著者 Haipeng Luo,Qingfeng Sun,Can Xu,Pu Zhao,Jianguang Lou,Chongyang Tao,Xiubo Geng,Qingwei Lin,Shifeng Chen,Dongmei Zhang
発行日 2023-08-18 14:23:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク