要約
大規模言語モデル (LLM) は、人間の言語の理解と生成において優れたパフォーマンスを発揮するため、自然言語処理 (NLP) 研究で多くの注目を集めています。
ただし、リソースが入手できないため、リソースの少ない言語は取り残されます。
この作業では、タスク固有のデータセットと生成データセットを統合してアムハラ語の言語モデルのパフォーマンスを向上させることにより、LLaMA-2-アムハラ語モデルを強化することに焦点を当てています。
アムハラ語命令の微調整データセットと微調整された LLaMA-2-アムハラ語モデルをコンパイルします。
微調整されたモデルは、さまざまな NLP タスクで有望な結果を示します。
私たちは、データセット作成パイプライン、命令データセット、トレーニング済みモデル、評価出力をオープンソースにして、これらのモデルに関する言語固有の研究を促進します。
要約(オリジナル)
Large language models (LLMs) have received a lot of attention in natural language processing (NLP) research because of their exceptional performance in understanding and generating human languages. However, low-resource languages are left behind due to the unavailability of resources. In this work, we focus on enhancing the LLaMA-2-Amharic model by integrating task-specific and generative datasets to improve language model performance for Amharic. We compile an Amharic instruction fine-tuning dataset and fine-tuned LLaMA-2-Amharic model. The fine-tuned model shows promising results in different NLP tasks. We open-source our dataset creation pipeline, instruction datasets, trained models, and evaluation outputs to promote language-specific studies on these models.
arxiv情報
著者 | Israel Abebe Azime,Atnafu Lambebo Tonja,Tadesse Destaw Belay,Mitiku Yohannes Fuge,Aman Kassahun Wassie,Eyasu Shiferaw Jada,Yonas Chanie,Walelign Tewabe Sewunetie,Seid Muhie Yimam |
発行日 | 2024-03-20 13:33:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google