要約
大規模言語モデル(LLM)は、自然言語理解の限界を押し広げ、優れた問題解決能力を示してきた。大きな成功にもかかわらず、既存のオープンソースのLLM(例えばLLaMA-2)のほとんどは、複雑な推論手順のため、数学的問題を解くにはまだ満足のいくものには程遠い。このギャップを埋めるために、我々は数学的推論に特化した微調整された言語モデルであるMetaMathを提案する。具体的には、余分な知識なしに複数の視点から質問を書き換えることによって数学的質問をブートストラップすることから始め、MetaMathQAと呼ばれる新しいデータセットを得る。そして、MetaMathQA上でLLaMA-2モデルを微調整する。数学的推論によく使われる2つのベンチマーク(GSM8KとMATH)で実験した結果、MetaMathはオープンソースのLLM群に大きな差をつけた。我々のMetaMath-7BモデルはGSM8Kで66.4%、MATHで19.4%を達成し、同じサイズの最先端モデルを11.5%、8.7%上回った。特にMetaMath-70BはGSM8Kで82.3%の精度を達成し、GPT-3.5-Turboをわずかに上回った。我々は、MetaMathQAデータセット、モデルサイズの異なるMetaMathモデル、トレーニングコードをすべて公開する。
要約(オリジナル)
Large language models (LLMs) have pushed the limits of natural language understanding and exhibited excellent problem-solving ability. Despite the great success, most existing open-source LLMs (e.g., LLaMA-2) are still far away from satisfactory for solving mathematical problem due to the complex reasoning procedures. To bridge this gap, we propose MetaMath, a fine-tuned language model that specializes in mathematical reasoning. Specifically, we start by bootstrapping mathematical questions by rewriting the question from multiple perspectives without extra knowledge, which results in a new dataset called MetaMathQA. Then we fine-tune the LLaMA-2 models on MetaMathQA. Experimental results on two popular benchmarks (i.e., GSM8K and MATH) for mathematical reasoning demonstrate that MetaMath outperforms a suite of open-source LLMs by a significant margin. Our MetaMath-7B model achieves 66.4% on GSM8K and 19.4% on MATH, exceeding the state-of-the-art models of the same size by 11.5% and 8.7%. Particularly, MetaMath-70B achieves an accuracy of 82.3% on GSM8K, slightly better than GPT-3.5-Turbo. We release all the MetaMathQA dataset, the MetaMath models with different model sizes and the training code for public use.
arxiv情報
著者 | Longhui Yu,Weisen Jiang,Han Shi,Jincheng Yu,Zhengying Liu,Yu Zhang,James T. Kwok,Zhenguo Li,Adrian Weller,Weiyang Liu |
発行日 | 2024-05-03 17:36:07+00:00 |
arxivサイト | arxiv_id(pdf) |