USTHB at NADI 2023 shared task: Exploring Preprocessing and Feature Engineering Strategies for Arabic Dialect Identification

要約

この論文では、国レベルの方言識別に関係する最初のサブタスクに特に焦点を当てて、アラビア語方言識別 NADI’2023 のパフォーマンスに影響を与えるいくつかの重要な要素の詳細な分析を実施します。
私たちの調査には、表面前処理、形態学的前処理、FastText ベクトル モデル、および TF-IDF 特徴の重み付き連結の影響が含まれます。
分類の目的で、線形サポート ベクトル分類 (LSVC) モデルを採用します。
評価段階で、当社のシステムは注目すべき結果を示し、F1 スコア 62.51% を達成しました。
この達成度は、最初のサブタスクに対して提出された他のシステムによって達成された平均 F1 スコア (72.91%) とほぼ一致しています。

要約(オリジナル)

In this paper, we conduct an in-depth analysis of several key factors influencing the performance of Arabic Dialect Identification NADI’2023, with a specific focus on the first subtask involving country-level dialect identification. Our investigation encompasses the effects of surface preprocessing, morphological preprocessing, FastText vector model, and the weighted concatenation of TF-IDF features. For classification purposes, we employ the Linear Support Vector Classification (LSVC) model. During the evaluation phase, our system demonstrates noteworthy results, achieving an F1 score of 62.51%. This achievement closely aligns with the average F1 scores attained by other systems submitted for the first subtask, which stands at 72.91%.

arxiv情報

著者 Mohamed Lichouri,Khaled Lounnas,Aicha Zitouni,Houda Latrache,Rachida Djeradi
発行日 2023-12-16 20:23:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク