A Survey on Arabic Named Entity Recognition: Past, Recent Advances, and Future Trends

要約

インターネット上にアラビア語のテキストがますます多く登場するにつれ、これらのアラビア語のテキストから重要な情報を抽出することが特に役立ちます。
基本的なテクノロジーとして、固有表現認識 (NER) は、情報抽出テクノロジーの中核コンポーネントとして機能すると同時に、質問応答やナレッジ グラフ構築など、他の多くの自然言語処理 (NLP) システムでも重要な役割を果たします。
この論文では、アラビア語 NER の開発、特に深層学習と事前トレーニング済み言語モデルの最近の進歩について包括的にレビューします。
具体的には、まずアラビア語の特徴や既存のアラビア語 NER のリソースなど、アラビア語 NER の背景を紹介します。
次に、アラビア語 NER メソッドの開発を系統的にレビューします。
従来のアラビア語 NER システムは、特徴量エンジニアリングとドメイン固有のルールの設計に重点を置いています。
近年、ディープラーニング手法は、テキストを連続的なベクトル表現で表現することで大きな進歩を遂げています。
事前トレーニングされた言語モデルの成長に伴い、アラビア語 NER のパフォーマンスが向上しました。
最後に、アラビア語 NER と他の言語の NER メソッドとの間のメソッドのギャップを結論付けます。これは、アラビア語 NER の将来の方向性を概説するのに役立ちます。

要約(オリジナル)

As more and more Arabic texts emerged on the Internet, extracting important information from these Arabic texts is especially useful. As a fundamental technology, Named entity recognition (NER) serves as the core component in information extraction technology, while also playing a critical role in many other Natural Language Processing (NLP) systems, such as question answering and knowledge graph building. In this paper, we provide a comprehensive review of the development of Arabic NER, especially the recent advances in deep learning and pre-trained language model. Specifically, we first introduce the background of Arabic NER, including the characteristics of Arabic and existing resources for Arabic NER. Then, we systematically review the development of Arabic NER methods. Traditional Arabic NER systems focus on feature engineering and designing domain-specific rules. In recent years, deep learning methods achieve significant progress by representing texts via continuous vector representations. With the growth of pre-trained language model, Arabic NER yields better performance. Finally, we conclude the method gap between Arabic NER and NER methods from other languages, which helps outline future directions for Arabic NER.

arxiv情報

著者 Xiaoye Qu,Yingjie Gu,Qingrong Xia,Zechang Li,Zhefeng Wang,Baoxing Huai
発行日 2023-08-08 13:27:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク