要約
このペーパーでは、自然言語処理 (NLP) の分野におけるアラビア語テキスト データの分類について、特に自然言語推論 (NLI) と矛盾検出 (CD) に焦点を当てて説明します。
アラビア語はリソースが少ない言語と考えられており、利用可能なデータセットがほとんどないため、利用できる NLP 手法が限られています。
この制限を克服するために、公開されているリソースから専用のデータセットを作成します。
その後、トランスフォーマーベースの機械学習モデルがトレーニングされ、評価されています。
固有表現認識 (NER) などの言語情報に基づいた事前トレーニング手法を適用すると、言語固有モデル (AraBERT) が最先端の多言語アプローチと競合して機能することがわかりました。
私たちの知る限り、これはアラビア語でこのタスクに対する初めての大規模な評価であり、この文脈でマルチタスクの事前トレーニングを初めて適用したものでもあります。
要約(オリジナル)
This paper addresses the classification of Arabic text data in the field of Natural Language Processing (NLP), with a particular focus on Natural Language Inference (NLI) and Contradiction Detection (CD). Arabic is considered a resource-poor language, meaning that there are few data sets available, which leads to limited availability of NLP methods. To overcome this limitation, we create a dedicated data set from publicly available resources. Subsequently, transformer-based machine learning models are being trained and evaluated. We find that a language-specific model (AraBERT) performs competitively with state-of-the-art multilingual approaches, when we apply linguistically informed pre-training methods such as Named Entity Recognition (NER). To our knowledge, this is the first large-scale evaluation for this task in Arabic, as well as the first application of multi-task pre-training in this context.
arxiv情報
著者 | Mohammad Majd Saad Al Deen,Maren Pielka,Jörn Hees,Bouthaina Soulef Abdou,Rafet Sifa |
発行日 | 2023-07-27 07:40:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google