Constraint Multi-class Positive and Unlabeled Learning for Distantly Supervised Named Entity Recognition

要約

遠い監督された名前付きエンティティ認識(DS-NER)は、人間の注釈の代わりに、外部の知識ベースによって自動ラベル付けされたトレーニングデータを活用するために提案されています。
ただし、固有の不完全性のために、高い偽陰性率に苦しむ傾向があります。
この問題に対処するために、\ textbf {c} onstraint \ textbf {m} ulti-class \ textbf {p} ositiveと\ textbf {u} nlabeled Learning(CMPU)と呼ばれる新しいアプローチを提示します。
制約の非陰性リスク推定器は、陽性データが限られている以前のPU学習方法よりも過剰適合に対してより堅牢であることを示唆しています。
CMPUの強固な理論分析が提供され、アプローチの妥当性を証明します。
多様な外部知識ソースを使用してラベル付けされた2つのベンチマークデータセットでの広範な実験は、既存のDSNERメソッドと比較してCMPUの優れたパフォーマンスを実証するのに役立ちます。

要約(オリジナル)

Distantly supervised named entity recognition (DS-NER) has been proposed to exploit the automatically labeled training data by external knowledge bases instead of human annotations. However, it tends to suffer from a high false negative rate due to the inherent incompleteness. To address this issue, we present a novel approach called \textbf{C}onstraint \textbf{M}ulti-class \textbf{P}ositive and \textbf{U}nlabeled Learning (CMPU), which introduces a constraint factor on the risk estimator of multiple positive classes. It suggests that the constraint non-negative risk estimator is more robust against overfitting than previous PU learning methods with limited positive data. Solid theoretical analysis on CMPU is provided to prove the validity of our approach. Extensive experiments on two benchmark datasets that were labeled using diverse external knowledge sources serve to demonstrate the superior performance of CMPU in comparison to existing DS-NER methods.

arxiv情報

著者 Yuzhe Zhang,Min Cen,Hong Zhang
発行日 2025-04-07 11:51:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク