Focusing on Potential Named Entities During Active Label Acquisition


名前付きエンティティ認識 (NER) は、構造化されていないテキスト内の名前付きエンティティの言及を識別し、それらを定義済みの名前付きエンティティ クラスに分類することを目的としています。
深層学習ベースの事前トレーニング済み言語モデルは、NER で優れた予測パフォーマンスを達成するのに役立ちますが、多くのドメイン固有の NER アプリケーションは依然として、かなりの量のラベル付きデータを必要とします。
ラベル取得問題の一般的なフレームワークであるアクティブ ラーニング (AL) が NER タスクに使用され、モデルのパフォーマンスを犠牲にすることなくアノテーション コストを最小限に抑えています。
ただし、トークンの非常に不均衡なクラス分布により、NER の効果的な AL クエリ方法を設計する際に課題が生じます。
潜在的な肯定的なトークンにもっと注意を払ういくつかの AL 文クエリ評価関数を提案し、これらの提案された関数を文ベースとトークン ベースの両方のコスト評価戦略で評価します。
異なるドメインからの 3 つのデータセットに対する私たちの実験では、提案されたアプローチが、従来の方法よりも優れた、または同等の予測パフォーマンスを達成しながら、注釈付きトークンの数を削減することが明らかになりました。


Named entity recognition (NER) aims to identify mentions of named entities in an unstructured text and classify them into predefined named entity classes. While deep learning-based pre-trained language models help to achieve good predictive performances in NER, many domain-specific NER applications still call for a substantial amount of labeled data. Active learning (AL), a general framework for the label acquisition problem, has been used for NER tasks to minimize the annotation cost without sacrificing model performance. However, the heavily imbalanced class distribution of tokens introduces challenges in designing effective AL querying methods for NER. We propose several AL sentence query evaluation functions that pay more attention to potential positive tokens, and evaluate these proposed functions with both sentence-based and token-based cost evaluation strategies. We also propose a better data-driven normalization approach to penalize sentences that are too long or too short. Our experiments on three datasets from different domains reveal that the proposed approach reduces the number of annotated tokens while achieving better or comparable prediction performance with conventional methods.


著者 Ali Osman Berk Sapci,Oznur Tastan,Reyyan Yeniterzi
発行日 2023-03-22 22:18:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク