要約
遠隔監視付き固有実体認識 (DS-NER) は、知識ベースまたは地名辞典とラベルなしコーパスのみを使用して、実体への言及を見つけてそのタイプを分類することを目的としています。
ただし、遠くにあるアノテーションにはノイズが多く、NER モデルのパフォーマンスが低下します。
この論文では、DS-NER タスク用に MProto という名前のノイズに強いプロトタイプ ネットワークを提案します。
以前のプロトタイプベースの NER メソッドとは異なり、MProto は各エンティティ タイプを複数のプロトタイプで表現し、エンティティ表現間のクラス内差異を特徴付けます。
分類器を最適化するには、各トークンに適切なグラウンドトゥルース プロトタイプを割り当てる必要があり、そのようなトークン プロトタイプの割り当てを最適トランスポート (OT) 問題として考慮します。
さらに、不完全なラベル付けによるノイズを軽減するために、新しいノイズ除去最適トランスポート (DOT) アルゴリズムを提案します。
具体的には、その他のクラスのトークンとすべてのプロトタイプの間の割り当て結果を利用して、ラベルのないエンティティ トークンと真の陰性トークンを区別します。
いくつかの DS-NER ベンチマークの実験により、MProto が最先端のパフォーマンスを達成していることが実証されました。
ソースコードは現在 Github で公開されています。
要約(オリジナル)
Distantly supervised named entity recognition (DS-NER) aims to locate entity mentions and classify their types with only knowledge bases or gazetteers and unlabeled corpus. However, distant annotations are noisy and degrade the performance of NER models. In this paper, we propose a noise-robust prototype network named MProto for the DS-NER task. Different from previous prototype-based NER methods, MProto represents each entity type with multiple prototypes to characterize the intra-class variance among entity representations. To optimize the classifier, each token should be assigned an appropriate ground-truth prototype and we consider such token-prototype assignment as an optimal transport (OT) problem. Furthermore, to mitigate the noise from incomplete labeling, we propose a novel denoised optimal transport (DOT) algorithm. Specifically, we utilize the assignment result between Other class tokens and all prototypes to distinguish unlabeled entity tokens from true negatives. Experiments on several DS-NER benchmarks demonstrate that our MProto achieves state-of-the-art performance. The source code is now available on Github.
arxiv情報
著者 | Shuhui Wu,Yongliang Shen,Zeqi Tan,Wenqi Ren,Jietian Guo,Shiliang Pu,Weiming Lu |
発行日 | 2023-10-12 13:02:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google