ArBanking77: Intent Detection Neural Model and a New Dataset in Modern and Dialectical Arabic

要約

この論文では、銀行ドメインにおける意図検出のための大規模なアラビア語データセットである ArBanking77 について説明します。
私たちのデータセットは、元の英語 Banking77 データセットからアラビア語化およびローカライズされました。これは、現代標準アラビア語 (MSA) とパレスチナ方言の両方で 31,404 クエリを含む ArBanking77 データセットへの 13,083 クエリで構成され、各クエリは 77 クラス (インテント) の 1 つに分類されます。
さらに、ArBanking77 で微調整された AraBERT に基づくニューラル モデルを提示します。このモデルは、MSA とパレスチナ方言でそれぞれ 0.9209 と 0.8995 の F1 スコアを達成しました。
私たちは、低リソース設定をシミュレートする広範な実験を実行しました。モデルはデータのサブセットでトレーニングされ、実際の NLP システム、特にライブ チャット クエリで見つかる口語用語、間違い、スペルミスをシミュレートするためにノイズの多いクエリで強化されました。
データとモデルは https://sina.birzeit.edu/arbanking77 で公開されています。

要約(オリジナル)

This paper presents the ArBanking77, a large Arabic dataset for intent detection in the banking domain. Our dataset was arabized and localized from the original English Banking77 dataset, which consists of 13,083 queries to ArBanking77 dataset with 31,404 queries in both Modern Standard Arabic (MSA) and Palestinian dialect, with each query classified into one of the 77 classes (intents). Furthermore, we present a neural model, based on AraBERT, fine-tuned on ArBanking77, which achieved an F1-score of 0.9209 and 0.8995 on MSA and Palestinian dialect, respectively. We performed extensive experimentation in which we simulated low-resource settings, where the model is trained on a subset of the data and augmented with noisy queries to simulate colloquial terms, mistakes and misspellings found in real NLP systems, especially live chat queries. The data and the models are publicly available at https://sina.birzeit.edu/arbanking77.

arxiv情報

著者 Mustafa Jarrar,Ahmet Birim,Mohammed Khalilia,Mustafa Erden,Sana Ghanem
発行日 2023-10-29 14:46:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク