Reveal the Unknown: Out-of-Knowledge-Base Mention Discovery with Entity Linking

要約

テキストからナレッジ ベース (KB) の外にあるエンティティの言及を発見することは、KB のメンテナンスにおいて重要な役割を果たしますが、まだ完全には調査されていません。
現在の方法は、単純なしきい値ベースのアプローチと機能ベースの分類にほとんど制限されています。
評価用のデータセットは比較的まれです。
この作業では、BLINKout を提案します。これは、対応する KB エンティティを持たない言及を特別な NIL エンティティと照合することで識別することができる新しい BERT ベースのエンティティ リンク (EL) メソッドです。
この目的のために、NIL 表現、NIL 分類、同義語強化などの新しい技術を統合します。
また、通常の KB 内 EL データセットから KB 外言及を構築するためのオントロジー プルーニングおよびバージョン管理戦略も提案します。
臨床ノートと出版物の 4 つのデータセットに関する結果は、BLINKout が、医療オントロジー UMLS と SNOMED CT の KB 外の言及を検出する既存の方法よりも優れていることを示しています。

要約(オリジナル)

Discovering entity mentions that are out of a Knowledge Base (KB) from texts plays a critical role in KB maintenance, but has not yet been fully explored. The current methods are mostly limited to the simple threshold-based approach and feature-based classification; the datasets for evaluation are relatively rare. In this work, we propose BLINKout, a new BERT-based Entity Linking (EL) method which can identify mentions that do not have a corresponding KB entity by matching them to a special NIL entity. To this end, we integrate novel techniques including NIL representation, NIL classification, and synonym enhancement. We also propose Ontology Pruning and Versioning strategies to construct out-of-KB mentions from normal, in-KB EL datasets. Results on four datasets of clinical notes and publications show that BLINKout outperforms existing methods to detect out-of-KB mentions for medical ontologies UMLS and SNOMED CT.

arxiv情報

著者 Hang Dong,Jiaoyan Chen,Yuan He,Yinan Liu,Ian Horrocks
発行日 2023-02-14 17:00:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク