Paramanu: A Family of Novel Efficient Indic Generative Foundation Language Models

要約

インド言語の新しい言語モデルのファミリーである Gyan AI Paramanu (「atom」) を紹介します。
これは、インドの 10 言語 (アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティリ語、マラーティー語、オーディア語、サンスクリット語、タミル語、テルグ語) に対して単一の GPU で最初から事前トレーニングされた自動回帰の単言語、二言語、および多言語のインド言語モデルのコレクションです。
13.29M から 367.5M までのさまざまなサイズの 5 つのスクリプト (バングラ語、デヴァナーガリー語、オディア語、タミル語、テルグ語)。モデルは、単一の GPU 上で 1024 のコンテキスト サイズで事前トレーニングされています。
このモデルは非常に効率的で、小型、高速、強力です。
また、目に見えない言語もトークン化できる、効率的で最先端のインド語トークナイザーも開発しました。
多言語 mParamanu モデルにおける「多言語の呪い」を回避するために、同じスクリプトを使用した類型グループ化によって、同等のコーパスに対して事前トレーニングを行いました。
私たちは、バングラ語、ヒンディー語、サンスクリット語の文法、一貫性、創造性、事実性のメトリクスに関して、オープンエンドのテキスト生成用の事前トレーニング済みモデルを人間による評価を実行しました。
当社のバングラ語、ヒンディー語、サンスクリット語のモデルは、GPT-3.5-Turbo (ChatGPT)、Bloom 7B、LLaMa-2 7B、OPT 6.7B、GPT-J 6B、GPTNeo 1.3B、GPT2-XL 大規模言語モデル (LLM) よりも優れたパフォーマンスを示しました。
標準の 7B LLM と比較してサイズが 66 ~ 20 倍小さいにもかかわらず、大きなマージンが得られます。
事前トレーニングされたモデルで推論を実行するには、CPU があれば十分であり、GPU は必要ありません。
また、事前トレーニング済みのバングラ語、ヒンディー語、マラーティー語、タミル語、テルグ語のモデルを、それぞれの言語の 23,000 の命令で命令調整しました。
当社の事前トレーニング済みおよび命令調整済みモデルは、これまでにインド言語向けに開発された、この種のものとしては初めての、最も強力で効率的な小型生成言語モデルであり、さまざまな結果から、大量の計算能力や高度な計算能力がなくても高品質の生成言語モデルが可能であるという結論に至りました。
膨大な数のパラメータ。
モデルは https://www.bharatgpts.com でリリースする予定です。

要約(オリジナル)

We present Gyan AI Paramanu (‘atom’), a family of novel language models for Indian languages. It is a collection of auto-regressive monolingual, bilingual, and multilingual Indic language models pretrained from scratch on a single GPU for 10 Indian languages (Assamese, Bangla, Hindi, Konkani, Maithili, Marathi, Odia, Sanskrit, Tamil, Telugu) across 5 scripts (Bangla, Devanagari, Odia, Tamil, Telugu) of varying sizes ranging from 13.29M to 367.5M.The models are pretrained with a context size of 1024 on a single GPU. The models are very efficient, small, fast, and powerful. We have also developed an efficient most advanced Indic tokenizer that can even tokenize unseen languages. In order to avoid the ‘curse of multi-linguality’ in our multilingual mParamanu model, we pretrained on comparable corpora by typological grouping using the same script. We performed human evaluation of our pretrained models for open end text generation on grammar, coherence, creativity, and factuality metrics for Bangla, Hindi, and Sanskrit. Our Bangla, Hindi, and Sanskrit models outperformed GPT-3.5-Turbo (ChatGPT), Bloom 7B, LLaMa-2 7B, OPT 6.7B, GPT-J 6B, GPTNeo 1.3B, GPT2-XL large language models (LLMs) by a large margin despite being smaller in size by 66 to 20 times compared to standard 7B LLMs. To run inference on our pretrained models, CPU is enough, and GPU is not needed. We also instruction-tuned our pretrained Bangla, Hindi, Marathi, Tamil, and Telugu models on 23k instructions in respective languages. Our pretrained and instruction-tuned models which are first of its kind, most powerful efficient small generative language models ever developed for Indic languages, and the various results lead to the conclusion that high quality generative language models are possible without high amount of compute power and humongous number of parameters. We plan to release our models at https://www.bharatgpts.com.

arxiv情報

著者 Mitodru Niyogi,Arnab Bhattacharya
発行日 2024-01-31 17:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク