要約
一般的な数学の問題解決に特化した、オープンソースの大規模言語モデル(LLM)シリーズであるMAmmoTHを紹介する。MAmmoTHモデルは、我々の綿密にキュレーションされたインストラクションチューニングデータセットであるMathInstructで学習される。MathInstructは、中間的な根拠を持つ13の数学データセットからコンパイルされており、そのうちの6つは、我々が新たにキュレーションした根拠を持つ。これは、思考連鎖(CoT)と思考プログラム(PoT)のユニークなハイブリッドであり、数学の多様な分野を幅広くカバーしています。CoTとPoTのハイブリッドは、ツール使用の可能性を引き出すだけでなく、数学の問題ごとに異なる思考プロセスを可能にします。その結果、MAmmoTHシリーズは、9つの数学的推論データセットにおいて、すべてのスケールで既存のオープンソースモデルを大幅に上回り、平均16%~32%の精度向上を達成した。驚くべきことに、我々のMAmmoTH-7BモデルはMATH(競技レベルのデータセット)で33%に達し、これはオープンソースの最良の7Bモデル(WizardMath)を23%上回っています。また、MAmmoTH-34BモデルはMATHで44%の精度を達成し、GPT-4のCoT結果をも上回っています。また、MAmmoTH-34Bモデルは、MATHにおいて44%の精度を達成し、GPT-4のCoT結果をも上回っています。
要約(オリジナル)
We introduce MAmmoTH, a series of open-source large language models (LLMs) specifically tailored for general math problem-solving. The MAmmoTH models are trained on MathInstruct, our meticulously curated instruction tuning dataset. MathInstruct is compiled from 13 math datasets with intermediate rationales, six of which have rationales newly curated by us. It presents a unique hybrid of chain-of-thought (CoT) and program-of-thought (PoT) rationales, and also ensures extensive coverage of diverse fields in math. The hybrid of CoT and PoT not only unleashes the potential of tool use but also allows different thought processes for different math problems. As a result, the MAmmoTH series substantially outperform existing open-source models on nine mathematical reasoning datasets across all scales with an average accuracy gain between 16% and 32%. Remarkably, our MAmmoTH-7B model reaches 33% on MATH (a competition-level dataset), which exceeds the best open-source 7B model (WizardMath) by 23%, and the MAmmoTH-34B model achieves 44% accuracy on MATH, even surpassing GPT-4’s CoT result. Our work underscores the importance of diverse problem coverage and the use of hybrid rationales in developing superior math generalist models.
arxiv情報
著者 | Xiang Yue,Xingwei Qu,Ge Zhang,Yao Fu,Wenhao Huang,Huan Sun,Yu Su,Wenhu Chen |
発行日 | 2023-10-03 02:48:42+00:00 |
arxivサイト | arxiv_id(pdf) |