Llama-3-Nanda-10B-Chat: An Open Generative Large Language Model for Hindi

要約

適度にリソースのある言語向けの高品質の大型言語モデル(LLMS)を開発することは、データの可用性、モデル適応、および評価における独自の課題を提示します。
Llama-3-Nanda-10b-chat、またはNandaは、オープンソースのヒンディー語言語モデルの境界を押し広げるように設計された、最先端のヒンディー語中心の指導チューニング生成LLMです。
Llama-3-8Bに基づいて構築されたNandaは、拡張されたトランスブロックを使用した連続前トレーニングを組み込んでおり、Llama Pro方法論を活用しています。
重要な課題は、高品質のヒンディー語テキストデータの利用可能性が限られていることでした。
これには、厳密なデータキュレーション、増強、戦略的バイリンガルトレーニングを通じて、ヒンディー語と英語のコーパスのバランスを取り、言語間知識移転を最適化しました。
100億のパラメーターを備えたナンダは、最高のパフォーマンスのオープンソースヒンディー語と同様のスケールの多言語モデルの1つであり、多くの既存のモデルよりも大きな利点を示しています。
トレーニング戦略、微調整技術、安全アライメント、および評価メトリックに関する詳細な議論を提供し、これらのアプローチによりナンダが最先端の結果を達成できるようになったことを示します。
オープンソーシングナンダにより、ヒンディー語のLLMでの研究を進め、学界、産業、公共サービス全体の幅広い現実世界のアプリケーションをサポートすることを目指しています。

要約(オリジナル)

Developing high-quality large language models (LLMs) for moderately resourced languages presents unique challenges in data availability, model adaptation, and evaluation. We introduce Llama-3-Nanda-10B-Chat, or Nanda for short, a state-of-the-art Hindi-centric instruction-tuned generative LLM, designed to push the boundaries of open-source Hindi language models. Built upon Llama-3-8B, Nanda incorporates continuous pre-training with expanded transformer blocks, leveraging the Llama Pro methodology. A key challenge was the limited availability of high-quality Hindi text data; we addressed this through rigorous data curation, augmentation, and strategic bilingual training, balancing Hindi and English corpora to optimize cross-linguistic knowledge transfer. With 10 billion parameters, Nanda stands among the top-performing open-source Hindi and multilingual models of similar scale, demonstrating significant advantages over many existing models. We provide an in-depth discussion of training strategies, fine-tuning techniques, safety alignment, and evaluation metrics, demonstrating how these approaches enabled Nanda to achieve state-of-the-art results. By open-sourcing Nanda, we aim to advance research in Hindi LLMs and support a wide range of real-world applications across academia, industry, and public services.

arxiv情報

著者 Monojit Choudhury,Shivam Chauhan,Rocktim Jyoti Das,Dhruv Sahnan,Xudong Han,Haonan Li,Aaryamonvikram Singh,Alok Anil Jadhav,Utkarsh Agarwal,Mukund Choudhary,Debopriyo Banerjee,Fajri Koto,Junaid Bhat,Awantika Shukla,Samujjwal Ghosh,Samta Kamboj,Onkar Pandit,Lalit Pradhan,Rahul Pal,Sunil Sahu,Soundar Doraiswamy,Parvez Mullah,Ali El Filali,Neha Sengupta,Gokul Ramakrishnan,Rituraj Joshi,Gurpreet Gosal,Avraham Sheinin,Natalia Vassilieva,Preslav Nakov
発行日 2025-04-08 13:16:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク