BongLLaMA: LLaMA for Bangla Language

要約

バングラ語 (または「ベンガル語」) は、世界中で約 2 億 4,000 万人の母語話者、約 3 億人が話している言語です。
バングラ語は世界で 5 番目に多くの話し言葉であるにもかかわらず、依然として「リソースが少ない」言語であり、既存の事前トレーニング済み言語モデルはバングラ言語処理 (BLP) タスクで適切に実行するのに苦労することがよくあります。
この研究では、BongLLaMA (つまり、Bangla-LLaMA) を導入することで、このギャップに対処しています。これは、大規模なバングラ語コーパスと命令チューニング データセットのみで微調整されたオープンソースの大規模言語モデルです。
私たちの方法論、データ拡張技術、微調整の詳細、および BLP タスクにおける BongLLaMA の有用性を示す包括的なベンチマーク結果を紹介します。
私たちは、BongLLaMA がバングラ言語モデルの新しい標準ベースラインとして機能し、広く話されているが「リソースが少ない」言語に焦点を当てた今後のベンチマーク研究を促進すると信じています。
すべての BongLLaMA モデルは、https://huggingface.co/BanglaLLM で一般公開されています。

要約(オリジナル)

Bangla (or ‘Bengali’) is a language spoken by approximately 240 million native speakers and around 300 million people worldwide. Despite being the 5th largest spoken language in the world, Bangla is still a ‘low-resource’ language, and existing pretrained language models often struggle to perform well on Bangla Language Processing (BLP) tasks. This work addresses this gap by introducing BongLLaMA (i.e., Bangla-LLaMA), an open-source large language model fine-tuned exclusively on large Bangla corpora and instruction-tuning datasets. We present our methodology, data augmentation techniques, fine-tuning details, and comprehensive benchmarking results showcasing the utility of BongLLaMA on BLP tasks. We believe BongLLaMA will serve as the new standard baseline for Bangla Language Models and, thus, facilitate future benchmarking studies focused on this widely-spoken yet ‘low-resource’ language. All BongLLaMA models are available for public use at https://huggingface.co/BanglaLLM.

arxiv情報

著者 Abdullah Khan Zehady,Safi Al Mamun,Naymul Islam,Santu Karmaker
発行日 2024-10-28 16:44:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク