MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning

要約

一般的な数学の問題解決に特化した一連のオープンソース大規模言語モデル (LLM) である MAmmoTH を紹介します。
MAmmoTH モデルは、当社が注意深く厳選した命令調整データセットである MathInstruct でトレーニングされます。
MathInstruct は、中間の理論的根拠を持つ 13 の数学データセットからコンパイルされており、そのうち 6 つは私たちが新たにキュレーションした理論的データセットです。
思考連鎖 (CoT) と思考プログラム (PoT) の理論的根拠を組み合わせた独自の理論を提示し、数学の多様な分野を広範囲にカバーします。
CoT と PoT のハイブリッドにより、ツールの使用の可能性が解き放たれるだけでなく、さまざまな数学問題に対してさまざまな思考プロセスが可能になります。
その結果、MAmmoTH シリーズは、すべてのスケールにわたって 9 つの数理推論データセットにおいて既存のオープンソース モデルを大幅に上回り、平均精度が 16% ~ 32% 向上しました。
注目すべきことに、当社の MAmmoTH-7B モデルは MATH (競争レベルのデータセット) で 33% に達しており、これは最高のオープンソース 7B モデル (WizardMath) を 23% 上回っており、MAmmoTH-34B モデルは MATH で 44% の精度を達成しています。
GPT-4のCoT結果を上回りました。
私たちの研究は、優れた数学ジェネラリスト モデルを開発する際に、多様な問題をカバーすることとハイブリッド理論的根拠を使用することの重要性を強調しています。

要約(オリジナル)

We introduce MAmmoTH, a series of open-source large language models (LLMs) specifically tailored for general math problem-solving. The MAmmoTH models are trained on MathInstruct, our meticulously curated instruction tuning dataset. MathInstruct is compiled from 13 math datasets with intermediate rationales, six of which have rationales newly curated by us. It presents a unique hybrid of chain-of-thought (CoT) and program-of-thought (PoT) rationales, and also ensures extensive coverage of diverse fields in math. The hybrid of CoT and PoT not only unleashes the potential of tool use but also allows different thought processes for different math problems. As a result, the MAmmoTH series substantially outperform existing open-source models on nine mathematical reasoning datasets across all scales with an average accuracy gain between 16% and 32%. Remarkably, our MAmmoTH-7B model reaches 33% on MATH (a competition-level dataset), which exceeds the best open-source 7B model (WizardMath) by 23%, and the MAmmoTH-34B model achieves 44% accuracy on MATH, even surpassing GPT-4’s CoT result. Our work underscores the importance of diverse problem coverage and the use of hybrid rationales in developing superior math generalist models.

arxiv情報

著者 Xiang Yue,Xingwei Qu,Ge Zhang,Yao Fu,Wenhao Huang,Huan Sun,Yu Su,Wenhu Chen
発行日 2023-10-01 15:25:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク