要約
この論文では、数学に基づいた 2 億 800 万パラメータの新しい自動回帰 (AR) デコーダ ベースの言語モデルである Paramanu-Ganita を紹介します。
モデルは、厳選された混合数学コーパス上でコンテキスト サイズ 4096 で最初から事前トレーニングされています。
パープレキシティ メトリックと GSM8k 数学的ベンチマークの両方でモデルを評価します。
Paramanu-Ganita は、7B LLM よりも 35 分の 1 小さいにもかかわらず、LLaMa-1 7B で 28.4% ポイント、LLaMa-2 7B で 27.6% ポイント、Falcon 7B で 32.6% ポイント、PaLM 8B で 35.3% ポイント、および
ミネルバ 8B などの数学に特化した LLM は、GSM8k テスト精度メトリクスでそれぞれ 23.2% ポイント、LLEMMA-7B は 3.0% ポイントでした。
Paramanu-Ganita はまた、PaLM 62B などの巨大 LLM を 6.4% ポイント、Falcon 40B を 19.8% ポイント、LLaMa-1 33B を 3.8% ポイント、Vicuna 13B を 11.8% ポイント上回りました。
既存の LLM と比較して、数学モデルのパフォーマンスが大きく大幅に改善されたことは、言語モデルの推論機能が膨大な数のパラメーターを持つ LLM に限定されないことを示しています。
Paramanu-Ganita は 146 時間の A100 トレーニングを受けましたが、数学に特化した LLM である LLEMMA 7B は、A100 トレーニングに相当する 23,000 時間のトレーニングを受けました。
したがって、ドメイン適応のために強力なドメイン特化言語モデルをゼロから事前トレーニングするアプローチは、ドメイン適応のために LLM の継続的なトレーニングを実行するよりもはるかにコスト効率が高くなります。
したがって、言語モデルの強力な数学的推論能力のためには、巨大な LLM や膨大な計算能力は必要ないと結論付けます。
最後に、私たちは数学コーパス全体の一部でのみ Paramanu-Ganita を訓練しただけであり、まだモデルの可能性を最大限に探索していないことを指摘したいと思います。
要約(オリジナル)
In this paper, we present Paramanu-Ganita, a 208 million parameter novel Auto Regressive (AR) decoder based language model on mathematics. The model is pretrained from scratch at context size of 4096 on our curated mixed mathematical corpus. We evaluate our model on both perplexity metric and GSM8k mathematical benchmark. Paramanu-Ganita despite being 35 times smaller than 7B LLMs, outperformed generalist LLMs such as LLaMa-1 7B by 28.4% points, LLaMa-2 7B by 27.6% points, Falcon 7B by 32.6% points, PaLM 8B by 35.3% points, and math specialised LLMs such as Minerva 8B by 23.2% points, and LLEMMA-7B by 3.0% points in GSM8k test accuracy metric respectively. Paramanu-Ganita also outperformed giant LLMs like PaLM 62B by 6.4% points, Falcon 40B by 19.8% points, LLaMa-1 33B by 3.8% points and Vicuna 13B by 11.8% points respectively. The large significant margin improvement in performance of our math model over the existing LLMs signifies that reasoning capabilities of language model are just not restricted to LLMs with humongous number of parameters. Paramanu-Ganita took 146 hours of A100 training whereas math specialised LLM, LLEMMA 7B, was trained for 23,000 A100 hours of training equivalent. Thus, our approach of pretraining powerful domain specialised language models from scratch for domain adaptation is much more cost-effective than performing continual training of LLMs for domain adaptation. Hence, we conclude that for strong mathematical reasoning abilities of language model, we do not need giant LLMs and immense computing power to our end. In the end, we want to point out that we have only trained Paramanu-Ganita only on a part of our entire mathematical corpus and yet to explore the full potential of our model.
arxiv情報
著者 | Mitodru Niyogi,Arnab Bhattacharya |
発行日 | 2024-04-22 17:55:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google