A Confidence-based Partial Label Learning Model for Crowd-Annotated Named Entity Recognition

要約

固有表現認識 (NER) の既存のモデルは主に、常にクラウドソーシングを使用して取得される大規模なラベル付きデータセットに基づいています。
ただし、ラベル付けスペースが広く、このタスクが複雑であるため、NER の複数のアノテーターからの多数決によって統一された正しいラベルを取得することは困難です。
この問題に対処するために、私たちはオリジナルのマルチアノテーターラベルを直接利用することを目指しています。
特に、群集アノテーション付き NER の事前信頼度 (アノテーターによって与えられる) と事後信頼度 (モデルによって学習される) を統合するための信頼度に基づく部分ラベル学習 (CPLL) 方法を提案します。
このモデルは、経験的リスクを最小限に抑えることで、期待値最大化 (EM) アルゴリズムを介してトークンとコンテンツに依存する信頼度を学習します。
真の事後推定量と信頼度推定量は反復して実行され、それぞれ真の事後推定量と信頼度が更新されます。
私たちは現実世界と合成データセットの両方で広範な実験結果を実施しており、その結果、私たちのモデルが強力なベースラインと比較してパフォーマンスを効果的に向上できることが示されています。

要約(オリジナル)

Existing models for named entity recognition (NER) are mainly based on large-scale labeled datasets, which always obtain using crowdsourcing. However, it is hard to obtain a unified and correct label via majority voting from multiple annotators for NER due to the large labeling space and complexity of this task. To address this problem, we aim to utilize the original multi-annotator labels directly. Particularly, we propose a Confidence-based Partial Label Learning (CPLL) method to integrate the prior confidence (given by annotators) and posterior confidences (learned by models) for crowd-annotated NER. This model learns a token- and content-dependent confidence via an Expectation-Maximization (EM) algorithm by minimizing empirical risk. The true posterior estimator and confidence estimator perform iteratively to update the true posterior and confidence respectively. We conduct extensive experimental results on both real-world and synthetic datasets, which show that our model can improve performance effectively compared with strong baselines.

arxiv情報

著者 Limao Xiong,Jie Zhou,Qunxi Zhu,Xiao Wang,Yuanbin Wu,Qi Zhang,Tao Gui,Xuanjing Huang,Jin Ma,Ying Shan
発行日 2023-07-27 10:06:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク