Arabic Stable LM: Adapting Stable LM 2 1.6B to Arabic

要約

大規模言語モデル (LLM) は、自然言語処理 (NLP) の複数の領域で目覚ましい結果を示していますが、主に英語に焦点を当てています。
最近、低リソース言語を表すために多言語テキストをより多くの LLM に組み込んでいます。
アラビア語 NLP では、過去 2 年間にいくつかのアラビア語中心の LLM が複数のベンチマークで顕著な結果を示しています。
ただし、ほとんどのアラビア語 LLM には 70 億を超えるパラメータがあり、小規模な LLM と比較すると、ハードウェア要件と推論遅延が増加します。
このペーパーでは、小型ながら強力なアラビア語中心の LLM として、ベース バージョンとチャット バージョンの Arabic Stable LM 1.6B を紹介します。
当社のアラビア語安定版 LM 1.6B チャット モデルは、いくつかのベンチマークで最大 8 倍のパラメータで複数のモデルを上回る素晴らしい結果を達成しました。
さらに、微調整データを大規模な合成対話データセットで強化することにより、合成命令調整データを混合する利点を示します。

要約(オリジナル)

Large Language Models (LLMs) have shown impressive results in multiple domains of natural language processing (NLP) but are mainly focused on the English language. Recently, more LLMs have incorporated a larger proportion of multilingual text to represent low-resource languages. In Arabic NLP, several Arabic-centric LLMs have shown remarkable results on multiple benchmarks in the past two years. However, most Arabic LLMs have more than 7 billion parameters, which increases their hardware requirements and inference latency, when compared to smaller LLMs. This paper introduces Arabic Stable LM 1.6B in a base and chat version as a small but powerful Arabic-centric LLM. Our Arabic Stable LM 1.6B chat model achieves impressive results on several benchmarks beating multiple models with up to 8x the parameters. In addition, we show the benefit of mixing in synthetic instruction tuning data by augmenting our fine-tuning data with a large synthetic dialogue dataset.

arxiv情報

著者 Zaid Alyafeai,Michael Pieler,Hannah Teufel,Jonathan Tow,Marco Bellagente,Duy Phung,Nikhil Pinnaparaju,Reshinth Adithyan,Paulo Rocha,Maksym Zhuravinskyi,Carlos Riquelme
発行日 2024-12-05 15:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク