GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning

要約

大規模言語モデル (LLM) は、特に英語の自然言語処理 (NLP) 分野に大きな影響を与えています。
これらのモデルは、人間のようなテキストを理解して生成する能力を実証しています。
言語モデルの成功は、高品質の指示データセットが利用できるかどうかに大きく依存します。指示データセットは、さまざまなプロンプトに正確に対応するようにモデルをトレーニングするために不可欠な、詳細なタスクの説明と対応する応答で構成されます。
ただし、これらのリソースの入手可能性と品質は言語によって異なります。
モデルは英語では良好に機能しますが、アラビア語特有のタスクを微調整するためのデータセットが不足しているため、アラビア語などの言語のサポートが必要になることがよくあります。
この問題に対処するために、いくつかのドメインと命令タイプをカバーするコンテンツを生成および収集することによって作成された新しいアラビア語命令データセットである InstAr-500k を導入します。
私たちは、オープンソースの Gemma-7B モデルをいくつかの下流タスクで微調整して機能を向上させることで、このデータセットを評価します。
複数の評価に基づいて、微調整されたモデルは、いくつかのアラビア語 NLP ベンチマークで優れたパフォーマンスを達成しました。
これらの成果は、アラビア語の言語モデルの機能を向上させる上でのデータセットの有効性を強調しています。
私たちの命令データセットは、アラビア語の NLP 開発を強化するリソースを提供することで、英語とアラビア語の言語モデル間のパフォーマンスのギャップを埋めます。
この基盤に基づいて、幅広いアラビア語 NLP タスクに優れた性能を発揮するように特別に調整されたモデル GemmAr-7B-V1 を開発しました。

要約(オリジナル)

Large language models (LLMs) have greatly impacted the natural language processing (NLP) field, particularly for the English language. These models have demonstrated capabilities in understanding and generating human-like text. The success of language models largely depends on the availability of high-quality instruction datasets, which consist of detailed task descriptions and corresponding responses that are essential for training the models to address a variety of prompts accurately. However, the availability and quality of these resources vary by language. While models perform well in English, they often need help with languages like Arabic, due to the lack of datasets for fine-tuning Arabic-specific tasks. To address this issue, we introduce InstAr-500k, a new Arabic instruction dataset created by generating and collecting content that covers several domains and instruction types. We assess this dataset by fine-tuning an open-source Gemma-7B model on several downstream tasks to improve its functionality. Based on multiple evaluations, our fine-tuned model achieves excellent performance on several Arabic NLP benchmarks. These outcomes emphasize the effectiveness of our dataset in elevating the capabilities of language models for Arabic. Our instruction dataset bridges the performance gap between English and Arabic language models by providing resources that amplify Arabic NLP development. Building on this foundation, we developed a model, GemmAr-7B-V1, specifically tuned to excel at a wide range of Arabic NLP tasks.

arxiv情報

著者 Hasna Chouikhi,Manel Aloui,Cyrine Ben Hammou,Ghaith Chaabane,Haithem Kchaou,Chehir Dhaouadi
発行日 2024-07-09 15:36:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク