要約
名前付き固有表現認識(NER)は、長い伝統を持つ重要な情報抽出タスクである。最近の研究では、再ラベリングによってアノテーションエラーを修正することが目指されているが、テキストの曖昧性、アノテーションエラー、ガイドラインの乖離など、人間のラベルのばらつきの原因についてはほとんど知られていない。これは特に高品質なデータセットや英語CoNLL03以外のデータセットの場合である。この論文では、専門家が注釈を付けた3つの言語の名前付きエンティティデータセットにおける不一致を研究する:英語、デンマーク語、バイエルン語である。本論文では、英語、デンマーク語、バイエルン語の3言語の専門家による名前付き固有表現データセットにおける注釈の不一致を研究する。また、難解なエンティティのサブセットに対する学生のアノテーションを調査し、分布の観点から、名前付きエンティティの曖昧性を理解するための多様なアノテーションの実現可能性と必要性を立証する。
要約(オリジナル)
Named Entity Recognition (NER) is a key information extraction task with a long-standing tradition. While recent studies address and aim to correct annotation errors via re-labeling efforts, little is known about the sources of human label variation, such as text ambiguity, annotation error, or guideline divergence. This is especially the case for high-quality datasets and beyond English CoNLL03. This paper studies disagreements in expert-annotated named entity datasets for three languages: English, Danish, and Bavarian. We show that text ambiguity and artificial guideline changes are dominant factors for diverse annotations among high-quality revisions. We survey student annotations on a subset of difficult entities and substantiate the feasibility and necessity of manifold annotations for understanding named entity ambiguities from a distributional perspective.
arxiv情報
著者 | Siyao Peng,Zihang Sun,Sebastian Loftus,Barbara Plank |
発行日 | 2024-02-02 14:08:34+00:00 |
arxivサイト | arxiv_id(pdf) |