MathScale: Scaling Instruction Tuning for Mathematical Reasoning

要約

大規模言語モデル (LLM) は、問題解決において顕著な能力を実証しています。
しかし、数学的問題を解決する能力は依然として不十分です。
私たちは、フロンティア LLM (例: {\tt GPT-3.5}) を使用して高品質の数学的推論データを作成するためのシンプルでスケーラブルな方法である MathScale を提案します。
人間の数学学習における認知メカニズムにヒントを得て、最初にシード数学の質問からトピックと知識ポイントを抽出し、その後、新しい数学の質問を生成するために使用される概念グラフを構築します。
MathScale は、生成する数学データセットのサイズ軸に沿って効果的なスケーラビリティを示します。
その結果、200 万の数学の質問と回答のペアを含む数学的推論データセット (MathScaleQA) を作成します。
LLM の数学的推論能力を包括的に評価するために、数学の文章問題のベンチマークである {\sc MwpBench} を構築します。これは、幼稚園から高等学校まで、大学、競技レベルの数学の問題をカバーする 10 個のデータセット (GSM8K と MATH を含む) のコレクションです。
MathScaleQA を適用してオープンソース LLM (LLaMA-2 や Mistral など) を微調整することで、数学的推論の機能が大幅に向上しました。
{\sc MwpBench} で評価された MathScale-7B は、すべてのデータセットにわたって最先端のパフォーマンスを達成し、同等のサイズの最高のピアをミクロ平均精度で 42.9\%、マクロ平均精度で 43.7\% それぞれ上回りました。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities in problem-solving. However, their proficiency in solving mathematical problems remains inadequate. We propose MathScale, a simple and scalable method to create high-quality mathematical reasoning data using frontier LLMs (e.g., {\tt GPT-3.5}). Inspired by the cognitive mechanism in human mathematical learning, it first extracts topics and knowledge points from seed math questions and then build a concept graph, which is subsequently used to generate new math questions. MathScale exhibits effective scalability along the size axis of the math dataset that we generate. As a result, we create a mathematical reasoning dataset (MathScaleQA) containing two million math question-answer pairs. To evaluate mathematical reasoning abilities of LLMs comprehensively, we construct {\sc MwpBench}, a benchmark of Math Word Problems, which is a collection of ten datasets (including GSM8K and MATH) covering K-12, college, and competition level math problems. We apply MathScaleQA to fine-tune open-source LLMs (e.g., LLaMA-2 and Mistral), resulting in significantly improved capabilities in mathematical reasoning. Evaluated on {\sc MwpBench}, MathScale-7B achieves state-of-the-art performance across all datasets, surpassing its best peers of equivalent size by 42.9\% in micro average accuracy and 43.7\% in macro average accuracy, respectively.

arxiv情報

著者 Zhengyang Tang,Xingxing Zhang,Benyou Wan,Furu Wei
発行日 2024-03-05 11:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク