ArabicaQA: A Comprehensive Dataset for Arabic Question Answering

要約

この論文では、アラビア語の機械読解とオープンドメインの質問応答のための初の大規模データセットである ArabicQA を導入することで、アラビア語の自然言語処理 (NLP) リソースの大きなギャップに対処します。
この包括的なデータセットは、オープンドメインの質問の追加ラベルとともに、クラウドワーカーによって作成された、回答可能な質問 89,095 個と回答不可能な 3,701 個の質問で構成されており、アラビア語 NLP リソースの重要な進歩を示しています。
また、アラビア語 Wikipedia コーパスでトレーニングされた最初の高密度パッセージ検索モデルである AraDPR も紹介します。これは、アラビア語テキスト検索特有の課題に取り組むために特別に設計されました。
さらに、私たちの研究には、アラビア語の質問応答の大規模言語モデル (LLM) の広範なベンチマークが含まれており、アラビア語のコンテキストでのパフォーマンスを批判的に評価しています。
結論として、ArabicaQA、AraDPR、およびアラビア語の質問応答における LLM のベンチマークは、アラビア語 NLP の分野に大きな進歩をもたらします。
データセットとコードは、さらなる研究のために公的にアクセスできます https://github.com/DataScienceUIBK/ArabicaQA。

要約(オリジナル)

In this paper, we address the significant gap in Arabic natural language processing (NLP) resources by introducing ArabicaQA, the first large-scale dataset for machine reading comprehension and open-domain question answering in Arabic. This comprehensive dataset, consisting of 89,095 answerable and 3,701 unanswerable questions created by crowdworkers to look similar to answerable ones, along with additional labels of open-domain questions marks a crucial advancement in Arabic NLP resources. We also present AraDPR, the first dense passage retrieval model trained on the Arabic Wikipedia corpus, specifically designed to tackle the unique challenges of Arabic text retrieval. Furthermore, our study includes extensive benchmarking of large language models (LLMs) for Arabic question answering, critically evaluating their performance in the Arabic language context. In conclusion, ArabicaQA, AraDPR, and the benchmarking of LLMs in Arabic question answering offer significant advancements in the field of Arabic NLP. The dataset and code are publicly accessible for further research https://github.com/DataScienceUIBK/ArabicaQA.

arxiv情報

著者 Abdelrahman Abdallah,Mahmoud Kasem,Mahmoud Abdalla,Mohamed Mahmoud,Mohamed Elkasaby,Yasser Elbendary,Adam Jatowt
発行日 2024-03-26 16:37:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク