要約
大規模言語モデル (LLM) は、自然言語理解の限界を押し広げ、優れた問題解決能力を発揮しました。
大成功にもかかわらず、ほとんどの既存のオープンソース LLM (LLaMA-2 など) は、推論手順が複雑なため、数学的問題を解決するにはまだ満足のいくものには程遠いです。
このギャップを埋めるために、私たちは数学的推論に特化した微調整された言語モデルである \emph{MetaMath} を提案します。
具体的には、余分な知識を持たずに複数の観点から質問を書き直すことで数学的な質問をブートストラップすることから始めます。その結果、{MetaMathQA} という新しいデータセットが作成されます。
次に、MetaMathQA で LLaMA-2 モデルを微調整します。
数学的推論のための 2 つの一般的なベンチマーク (つまり、GSM8K と MATH) の実験結果は、MetaMath が一連のオープンソース LLM よりも大幅に優れていることを示しています。
当社の MetaMath-7B モデルは、GSM8K で $66.4\%$、MATH で $19.4\%$ を達成しており、同じサイズの最先端モデルを $11.5\%$ と $8.7\%$ 上回っています。
特に、{MetaMath-70B} は、{GSM8K} 上で $82.3\%$ の精度を達成し、{GPT-3.5-Turbo} よりわずかに優れています。
{MetaMathQA} データセット、さまざまなモデル サイズの {MetaMath} モデル、およびトレーニング コードを公開用にリリースします。
要約(オリジナル)
Large language models (LLMs) have pushed the limits of natural language understanding and exhibited excellent problem-solving ability. Despite the great success, most existing open-source LLMs (\eg, LLaMA-2) are still far away from satisfactory for solving mathematical problem due to the complex reasoning procedures. To bridge this gap, we propose \emph{MetaMath}, a fine-tuned language model that specializes in mathematical reasoning. Specifically, we start by bootstrapping mathematical questions by rewriting the question from multiple perspectives without extra knowledge, which results in a new dataset called {MetaMathQA}. Then we fine-tune the LLaMA-2 models on MetaMathQA. Experimental results on two popular benchmarks (\ie, GSM8K and MATH) for mathematical reasoning demonstrate that MetaMath outperforms a suite of open-source LLMs by a significant margin. Our MetaMath-7B model achieves $66.4\%$ on GSM8K and $19.4\%$ on MATH, exceeding the state-of-the-art models of the same size by $11.5\%$ and $8.7\%$. Particularly, {MetaMath-70B} achieves an accuracy of $82.3\%$ on {GSM8K}, slightly better than {GPT-3.5-Turbo}. We release the {MetaMathQA} dataset, the {MetaMath} models with different model sizes and the training code for public use.
arxiv情報
著者 | Longhui Yu,Weisen Jiang,Han Shi,Jincheng Yu,Zhengying Liu,Yu Zhang,James T. Kwok,Zhenguo Li,Adrian Weller,Weiyang Liu |
発行日 | 2023-09-21 17:45:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google