PARAMANU-GANITA: Can Small Math Language Models Rival with Large Language Models on Mathematical Reasoning?

要約

このホワイトペーパーでは、ドメイン専用のトークン剤とチェーンオブシャートモデル(COT)の微調整により、LLMSと比較して数学的推論の競争力のあるパフォーマンスをもたらすドメイン特殊生成言語モデル(SLM)のドメイン固有の事前削除がゼロからかどうかを調べます。
第二に、このアプローチが環境的に持続可能であり、非常にコスト効率が高いかどうか?
これらの研究の質問に対処するために、数学に関する2億800万パラメーターの新規デコーダーのみの自動SLMであるParamanu-Ganitaを提示します。
Webページ、ソースコード、教科書、COTテンプラートのスタックフローQAペア、および米国がキュレーションされたLatexの数学的講義ノートで構成される混合数学コーパスで、4096のコンテキストサイズを使用して、170 A100時間、315億トークンでゼロから事前トレーニングを実行しました。
また、数学とコードの専門のBPEトークナイザーを訓練しました。
メタマスカデータセットでパラマヌガニタのCOT命令を提案し、実行しました。
私たちのモデルParamanu-Ganitaは、7B LLMの34倍少ないにもかかわらず、GSM8Kテスト精度メトリックでGenerist LLMSを約30%ポイント、さらには数学専門化されたLLMを3〜23%ポイント上回ることができます。
数学ベンチマークでは、Paramanu-Ganitaはさまざまなモデルを6〜8%ポイント上回りました。
Logiqa、MMLU(高校、大学レベル)、競争試験レベル、Agieval(Aqua-Rat、Sat-Math)などのベンチマークでは、Paramanu-Ganitaは他の人を1〜4%上回りました。
私たちのモデルは、https://huggingface.co/gyanai/paramanu-ganita-208m-hfで入手できます。

要約(オリジナル)

In this paper, we study whether domain specific pretraining of small generative language models (SLM) from scratch with domain specialized tokenizer and Chain-of-Thought (CoT) instruction fine-tuning results in competitive performance on mathematical reasoning compared to LLMs? Secondly, whether this approach is environmentally sustainable, highly cost efficient? To address these research questions, we present Paramanu-Ganita, a 208 million-parameter novel decoder-only Auto Regressive SLM on mathematics. We performed pretraining from scratch on 31.5 billion tokens for 170 A100 hours using a context size of 4096 on a mixed mathematical corpus consisting of web pages, source code, textbooks, CoT templatised StackOverflow QA pairs, and mathematical lecture notes in LaTeX curated by us. We also trained a math and code specialised BPE tokenizer. We proposed and performed CoT instruction fine-tuning of Paramanu-Ganita on the MetaMathQA dataset. Our model Paramanu-Ganita, despite being 34 times smaller than the 7B LLMs, outperforms generalist LLMs by approximately 30% points, and even math-specialised LLMs by 3-23% points in GSM8K test accuracy metric. On MATH benchmark, Paramanu-Ganita outperformed the various models by 6-8% points. On benchmarks like LogiQA, MMLU (high school, college level), and competitive exams level, AGIEVAL (AQuA-RAT, SAT-Math), Paramanu-Ganita outperformed others by 1-4%. Our model is available at https://huggingface.co/gyanai/paramanu-ganita-208M-hf .

arxiv情報

著者 Mitodru Niyogi,Arnab Bhattacharya
発行日 2025-03-05 18:17:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク