A Large and Diverse Arabic Corpus for Language Modeling

要約

言語モデル (LM) は、自然言語処理 (NLP) モデリングに大きなパラダイム シフトをもたらし、大規模な事前トレーニング済み LM がほとんどの NLP タスクに不可欠になりました。
LM は、監督なしで言語の有用で関連性のある表現を見つけるのに十分な知性を備えています。
おそらく、これらのモデルは、従来のアプローチと比較して非常に高い精度で典型的な NLP タスクを微調整するために使用されます。
逆に、これらのモデルのトレーニングには、言語を適切に表現する非常に大きなコーパスが必要です。
英語の LM は、大量の英語コーパスが利用できるため、一般的に他の言語の LM よりも優れたパフォーマンスを発揮します。
この作品は、大規模なアラビア語コーパスの設計と開発について詳しく説明しています。
これは、クロスドメインの知識と大規模な言語モデルのダウンストリームの一般化機能を改善することを目的とした、500 GB を超えるアラビア語のクリーンアップされたテキストで構成されています。
さらに、コーパスは大規模なアラビア語 LM のトレーニングに利用されます。
LM の有効性を評価するために、多くの典型的な NLP タスクが微調整されています。
タスクは、多言語 BERT (mBERT) で微調整されたタスクと比較して、4.5% から 8.5% への大幅な向上を示しています。
私の知る限りでは、これは現在、これまでに収集された最大のクリーンで多様なアラビア語コーパスです。

要約(オリジナル)

Language models (LMs) have introduced a major paradigm shift in Natural Language Processing (NLP) modeling where large pre-trained LMs became integral to most of the NLP tasks. The LMs are intelligent enough to find useful and relevant representations of the language without any supervision. Perhaps, these models are used to fine-tune typical NLP tasks with significantly high accuracy as compared to the traditional approaches. Conversely, the training of these models requires a massively large corpus that is a good representation of the language. English LMs generally perform better than their other language counterparts, due to the availability of massive English corpora. This work elaborates on the design and development of a large Arabic corpus. It consists of over 500 GB of Arabic cleaned text targeted at improving cross-domain knowledge and downstream generalization capability of large-scale language models. Moreover, the corpus is utilized in the training of a large Arabic LM. In order to evaluate the effectiveness of the LM, a number of typical NLP tasks are fine-tuned. The tasks demonstrate a significant boost from 4.5 to 8.5% when compared to tasks fine-tuned on multi-lingual BERT (mBERT). To the best of my knowledge, this is currently the largest clean and diverse Arabic corpus ever collected.

arxiv情報

著者 Abbas Raza Ali,Muhammad Ajmal Siddiqui,Rema Algunaibet,Hasan Raza Ali
発行日 2023-03-15 09:23:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク