要約
固有表現認識 (NER) は、テキスト内のエンティティを識別し、事前定義されたカテゴリに分類することを目的とした自然言語処理 (NLP) のタスクです。
ただし、NER をアラビア語データに適用すると、言語の豊富な形態変化、大文字化の手がかりの欠如、および単一の単語が複数の形態素で構成される可能性がある綴りのバリエーションに起因する独特の課題に直面します。
このペーパーでは、Wojood NER Shared Task 2024 (ArabicNLP 2024) への提出物であるアラビア語 KNN-NER を紹介します。
共有サブタスク1 Flat NERに参加しました。
この共有サブタスクでは、アラビア語テキストのきめ細かいフラットエンティティ認識に取り組み、単語ごとに 1 つのメインエンティティと、場合によっては 0 個または複数のサブエンティティを識別します。
アラビア語 KNN-NER は、キャッシュされたトレーニング データに対して KNN 検索を実行することで得られた別のラベル確率分布を使用して、微調整モデルの確率分布を拡張します。
私たちの提出物は、WojoodFine データセットのテストセットで 91% を達成し、アラビア語の KNN-NER が共有タスクのリーダーボードのトップになりました。
要約(オリジナル)
Named Entity Recognition (NER) is a task in Natural Language Processing (NLP) that aims to identify and classify entities in text into predefined categories. However, when applied to Arabic data, NER encounters unique challenges stemming from the language’s rich morphological inflections, absence of capitalization cues, and spelling variants, where a single word can comprise multiple morphemes. In this paper, we introduce Arabic KNN-NER, our submission to the Wojood NER Shared Task 2024 (ArabicNLP 2024). We have participated in the shared sub-task 1 Flat NER. In this shared sub-task, we tackle fine-grained flat-entity recognition for Arabic text, where we identify a single main entity and possibly zero or multiple sub-entities for each word. Arabic KNN-NER augments the probability distribution of a fine-tuned model with another label probability distribution derived from performing a KNN search over the cached training data. Our submission achieved 91% on the test set on the WojoodFine dataset, placing Arabic KNN-NER on top of the leaderboard for the shared task.
arxiv情報
| 著者 | Ahmed Abdou,Tasneem Mohsen |
| 発行日 | 2024-08-07 09:34:55+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google