Walia-LLM: Enhancing Amharic-LLaMA by Integrating Task-Specific and Generative Datasets

要約

大規模言語モデル (LLM) は、人間の言語の理解と生成において優れたパフォーマンスを発揮するため、自然言語処理 (NLP) 研究で多くの注目を集めています。
ただし、リソースが入手できないため、リソースの少ない言語は取り残されます。
この作業では、タスク固有のデータセットと生成データセットを統合してアムハラ語の言語モデルのパフォーマンスを向上させることにより、LLaMA-2-アムハラ語モデルを強化することに焦点を当てています。
アムハラ語命令の微調整データセットと微調整された LLaMA-2-アムハラ語モデルをコンパイルします。
微調整されたモデルは、さまざまな NLP タスクで有望な結果を示します。
私たちは、データセット作成パイプライン、命令データセット、トレーニング済みモデル、評価出力をオープンソースにして、これらのモデルに関する言語固有の研究を促進します。

要約(オリジナル)

Large language models (LLMs) have received a lot of attention in natural language processing (NLP) research because of their exceptional performance in understanding and generating human languages. However, low-resource languages are left behind due to the unavailability of resources. In this work, we focus on enhancing the LLaMA-2-Amharic model by integrating task-specific and generative datasets to improve language model performance for Amharic. We compile an Amharic instruction fine-tuning dataset and fine-tuned LLaMA-2-Amharic model. The fine-tuned model shows promising results in different NLP tasks. We open-source our dataset creation pipeline, instruction datasets, trained models, and evaluation outputs to promote language-specific studies on these models.

arxiv情報

著者 Israel Abebe Azime,Atnafu Lambebo Tonja,Tadesse Destaw Belay,Mitiku Yohannes Fuge,Aman Kassahun Wassie,Eyasu Shiferaw Jada,Yonas Chanie,Walelign Tewabe Sewunetie,Seid Muhie Yimam
発行日 2024-03-20 13:33:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク