要約
固有表現認識は、テキスト内の実体を見つけて分類するタスクです。
ただし、NER データセットのラベルなしエンティティ問題は、NER パフォーマンスの向上を著しく妨げています。
本稿では、この問題に対処するための SCL-RAI を提案します。
まず、スパンベースの対比学習により、同じラベルを持つスパン表現の距離を短縮し、異なるスパン表現の距離を増やします。これにより、エンティティ間のあいまいさが軽減され、ラベルのないエンティティに対するモデルの堅牢性が向上します。
次に、決定境界シフト問題を軽減するために検索拡張推論を提案します。
私たちの方法は、2 つの現実世界のデータセットで、以前の SOTA 方法よりも F1 スコアが 4.21% および 8.64% 大幅に優れています。
要約(オリジナル)
Named Entity Recognition is the task to locate and classify the entities in the text. However, Unlabeled Entity Problem in NER datasets seriously hinders the improvement of NER performance. This paper proposes SCL-RAI to cope with this problem. Firstly, we decrease the distance of span representations with the same label while increasing it for different ones via span-based contrastive learning, which relieves the ambiguity among entities and improves the robustness of the model over unlabeled entities. Then we propose retrieval augmented inference to mitigate the decision boundary shifting problem. Our method significantly outperforms the previous SOTA method by 4.21% and 8.64% F1-score on two real-world datasets.
arxiv情報
著者 | Shuzheng Si,Shuang Zeng,Jiaxing Lin,Baobao Chang |
発行日 | 2023-10-24 15:07:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google