Arabic Fine-Grained Entity Recognition


従来の NER システムは通常、粒度の粗いエンティティを認識するようにトレーニングされており、エンティティを粒度の細かい下位レベルのサブタイプの階層に分類することにはあまり注意が払われません。
この記事は、きめ細かいエンティティを使用してアラビア語 NER を進歩させることを目的としています。
私たちは、Wojood (オープンソースの入れ子になったアラビア語の名前付きエンティティ コーパス) をサブタイプで拡張することにしました。
特に、Wojood の 4 つの主要なエンティティ タイプ、地政学的エンティティ (GPE)、場所 (LOC)、組織 (ORG)、および施設 (FAC) は、31 のサブタイプで拡張されています。
これを行うために、まず Wojood の GPE、LOC、ORG、および FAC の注釈を LDC の ACE ガイドラインと互換性があるように改訂し、5,614 件の変更が生じました。
第 2 に、Wojood 内の GPE、LOC、ORG、および FAC (約 44K) のすべての言及には、LDC の ACE サブタイプが手動で注釈付けされます。
この Wojood の拡張バージョンを WojoodF ine と呼びます。
アノテーションを評価するために、Cohen の Kappa スコアと F1 スコアの両方を使用してアノテーター間合意 (IAA) を測定し、それぞれ 0.9861 と 0.9889 という結果になりました。
WojoodF ine のベースラインを計算するために、3 つの事前トレーニング済みアラビア語 BERT エンコーダーを 3 つの設定 (フラット NER、ネストされた NER、およびサブタイプを持つネストされた NER) で微調整し、それぞれ 0.920、0.866、および 0.885 の F1 スコアを達成しました。
私たちのコーパスとモデルはオープンソースであり、 から入手できます。


Traditional NER systems are typically trained to recognize coarse-grained entities, and less attention is given to classifying entities into a hierarchy of fine-grained lower-level subtypes. This article aims to advance Arabic NER with fine-grained entities. We chose to extend Wojood (an open-source Nested Arabic Named Entity Corpus) with subtypes. In particular, four main entity types in Wojood, geopolitical entity (GPE), location (LOC), organization (ORG), and facility (FAC), are extended with 31 subtypes. To do this, we first revised Wojood’s annotations of GPE, LOC, ORG, and FAC to be compatible with the LDC’s ACE guidelines, which yielded 5, 614 changes. Second, all mentions of GPE, LOC, ORG, and FAC (~44K) in Wojood are manually annotated with the LDC’s ACE sub-types. We refer to this extended version of Wojood as WojoodF ine. To evaluate our annotations, we measured the inter-annotator agreement (IAA) using both Cohen’s Kappa and F1 score, resulting in 0.9861 and 0.9889, respectively. To compute the baselines of WojoodF ine, we fine-tune three pre-trained Arabic BERT encoders in three settings: flat NER, nested NER and nested NER with subtypes and achieved F1 score of 0.920, 0.866, and 0.885, respectively. Our corpus and models are open-source and available at


著者 Haneen Liqreina,Mustafa Jarrar,Mohammed Khalilia,Ahmed Oumar El-Shangiti,Muhammad AbdulMageed
発行日 2023-10-26 11:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク