Improving Natural Language Inference in Arabic using Transformer Models and Linguistically Informed Pre-Training


このペーパーでは、自然言語処理 (NLP) の分野におけるアラビア語テキスト データの分類について、特に自然言語推論 (NLI) と矛盾検出 (CD) に焦点を当てて説明します。
アラビア語はリソースが少ない言語と考えられており、利用可能なデータセットがほとんどないため、利用できる NLP 手法が限られています。
固有表現認識 (NER) などの言語情報に基づいた事前トレーニング手法を適用すると、言語固有モデル (AraBERT) が最先端の多言語アプローチと競合して機能することがわかりました。


This paper addresses the classification of Arabic text data in the field of Natural Language Processing (NLP), with a particular focus on Natural Language Inference (NLI) and Contradiction Detection (CD). Arabic is considered a resource-poor language, meaning that there are few data sets available, which leads to limited availability of NLP methods. To overcome this limitation, we create a dedicated data set from publicly available resources. Subsequently, transformer-based machine learning models are being trained and evaluated. We find that a language-specific model (AraBERT) performs competitively with state-of-the-art multilingual approaches, when we apply linguistically informed pre-training methods such as Named Entity Recognition (NER). To our knowledge, this is the first large-scale evaluation for this task in Arabic, as well as the first application of multi-task pre-training in this context.


著者 Mohammad Majd Saad Al Deen,Maren Pielka,Jörn Hees,Bouthaina Soulef Abdou,Rafet Sifa
発行日 2023-07-27 07:40:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク