要約
アラビア語方言向けに特別に開発された大規模な言語モデルの初のコレクションである Atlas-Chat を紹介します。
ダリジャとしても知られるモロッコのアラビア語に焦点を当て、既存のダリジャ言語リソースを統合し、手動および合成の両方で新しいデータセットを作成し、厳格な品質管理のもとで英語の指示を翻訳することにより、指示データセットを構築します。
データセットに基づいて微調整された Atlas-Chat-9B および 2B モデルは、Darija の指示に従い、標準的な NLP タスクを実行する際に優れた能力を示します。
特に、当社のモデルは、LLaMa、Jais、AceGPT などの最先端のアラビア語に特化した LLM の両方を上回っています。たとえば、新しく導入された Darija 用の評価スイートでは、DarijaMMLU のより大きな 13B モデルと比較して 13% のパフォーマンス向上を達成しています。
識別タスクと生成タスクの両方をカバーします。
さらに、最適な構成を決定するために、さまざまな微調整戦略と基本モデルの選択の実験的分析を実行します。
私たちのリソースはすべて公的にアクセス可能であり、私たちの仕事は、現代の LLM によってデータ豊富な言語を優先して無視されることが多い、リソースの少ない言語バリアント向けの命令チューニングの包括的な設計方法論を提供すると信じています。
要約(オリジナル)
We introduce Atlas-Chat, the first-ever collection of large language models specifically developed for dialectal Arabic. Focusing on Moroccan Arabic, also known as Darija, we construct our instruction dataset by consolidating existing Darija language resources, creating novel datasets both manually and synthetically, and translating English instructions with stringent quality control. Atlas-Chat-9B and 2B models, fine-tuned on the dataset, exhibit superior ability in following Darija instructions and performing standard NLP tasks. Notably, our models outperform both state-of-the-art and Arabic-specialized LLMs like LLaMa, Jais, and AceGPT, e.g., achieving a 13% performance boost over a larger 13B model on DarijaMMLU, in our newly introduced evaluation suite for Darija covering both discriminative and generative tasks. Furthermore, we perform an experimental analysis of various fine-tuning strategies and base model choices to determine optimal configurations. All our resources are publicly accessible, and we believe our work offers comprehensive design methodologies of instruction-tuning for low-resource language variants, which are often neglected in favor of data-rich languages by contemporary LLMs.
arxiv情報
著者 | Guokan Shang,Hadi Abdine,Yousef Khoubrane,Amr Mohamed,Yassine Abbahaddou,Sofiane Ennadir,Imane Momayiz,Xuguang Ren,Eric Moulines,Preslav Nakov,Michalis Vazirgiannis,Eric Xing |
発行日 | 2024-09-26 14:56:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google