Paramanu: A Family of Novel Efficient Generative Foundation Language Models for Indian Languages

要約

インド言語の新しい言語モデル (LM) ファミリーである「Paramanu」を紹介します。これは、ゼロから事前学習された自己回帰の単言語モデル、二言語モデル、および多言語モデルで構成されます。
現在、5 つの文字 (バングラ語、デーヴァナーガリー語、オーディア語、タミル語、テルグ語) にわたって 10 の言語 (アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティリ語、マラーティー語、オーディア語、サンスクリット語、タミル語、テルグ語) をカバーしています。
モデルは、コンテキスト サイズ 1024 の単一 GPU で事前トレーニングされており、サイズは 1,329 万 (M) から 3 億 6,750 万のパラメーターまで変化します。
私たちは、一般的な GPU メモリが許容するよりも大きなシーケンス長コンテキスト サイズで言語モデルを最初から事前トレーニングできる RoPE 埋め込みスケーリング手法を提案しました。
また、BPE と Unigram を組み合わせた新しい効率的なインド語トークナイザー「mBharat」も導入しました。これにより、最小の妊孕性スコアを達成し、同じ文字とローマ字の両方で未知の言語をトークン化する機能が実現しました。
また、多言語モデルの場合は言語固有のトークン化、単言語モデルの場合はドメイン固有のトークン化を提案し、実行しました。
mParamanu モデルの「多言語の呪い」に対処するために、同じ文字内の類型的なグループ化に基づいて、比較可能なコーパスで事前トレーニングしました。
私たちの調査結果は、同じ文字と類型の言語内で低リソース言語から高リソース言語への言語転移現象を示しています。
オープンエンドのテキスト生成に対する人による評価では、Paramanu モデルが 20 ~ 64 倍小さいにもかかわらず、いくつかの LLM よりも優れたパフォーマンスを発揮することが実証されました。
私たちは命令チューニング データセットを作成し、それぞれの言語で 23,000 の命令に基づいてモデルを命令チューニングしました。
自然言語 (NL) 理解、NL 推論、読解のさまざまなベンチマークにわたる多言語 LLM との比較により、私たちのモデルの利点が強調されます。
このことから、高品質の生成 LM は、大量の計算能力や膨大な数のパラメータがなくても可能であるという結論につながります。

要約(オリジナル)

We present ‘Paramanu’, a family of novel language models (LM) for Indian languages, consisting of auto-regressive monolingual, bilingual, and multilingual models pretrained from scratch. Currently, it covers 10 languages (Assamese, Bangla, Hindi, Konkani, Maithili, Marathi, Odia, Sanskrit, Tamil, Telugu) across 5 scripts (Bangla, Devanagari, Odia, Tamil, Telugu). The models are pretrained on a single GPU with context size of 1024 and vary in size from 13.29 million (M) to 367.5 M parameters. We proposed a RoPE embedding scaling method that enables us to pretrain language models from scratch at larger sequence length context size than typical GPU memory permits. We also introduced a novel efficient Indic tokenizer, ‘mBharat’, using a combination of BPE and Unigram, achieving the least fertility score and the ability to tokenize unseen languages in both the same script & Roman script. We also proposed and performed language-specific tokenization for multilingual models & domain-specific tokenization for monolingual models. To address the ‘curse of multilinguality’ in our mParamanu model, we pretrained on comparable corpora based on typological grouping within the same script. Our findings show a language transfer phenomenon from low-resource to high-resource languages within languages of the same script & typology. Human evaluations for open-ended text generation demonstrated that Paramanu models outperformed several LLMs, despite being 20 to 64 times smaller. We created instruction-tuning datasets & instruction-tuned our models on 23,000 instructions in respective languages. Comparisons with multilingual LLMs across various benchmarks for natural language (NL) understanding, NL inference, & reading comprehension highlight the advantages of our models; leads to the conclusion that high quality generative LM are possible without high amount of compute power & enormous number of parameters.

arxiv情報

著者 Mitodru Niyogi,Arnab Bhattacharya
発行日 2024-10-10 16:19:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク