Unsupervised Named Entity Disambiguation for Low Resource Domains

要約

自然言語処理と情報検索の進化し続ける状況において、堅牢でドメイン固有のエンティティ リンク アルゴリズムの必要性がますます明らかになってきています。
人文科学、技術文書、生物医学などの多くの分野では、テキストを意味論で強化し、より多くの知識を発見することが重要です。
このようなドメインで固有表現曖昧さ回避 (NED) を使用するには、ノイズの多いテキスト、低リソース設定、およびドメイン固有の KB を処理する必要があります。
既存のアプローチは、トレーニング データに依存しているか、ドメイン固有の KB を操作するのに十分な柔軟性がないため、このようなシナリオにはほとんど適していません。
したがって、この研究では、グループ シュタイナー ツリー (GST) の概念を活用した教師なしアプローチを紹介します。このアプローチは、文書内に存在するすべての言及について、候補エンティティ全体の文脈上の類似性を使用して、エンティティの曖昧さを解消するために最も関連性の高い候補を特定できます。
当社は、さまざまなドメイン固有のデータセットにわたる Precision@1 の点で、最先端の教師なし手法を 40\% 以上 (平均) 上回っています。

要約(オリジナル)

In the ever-evolving landscape of natural language processing and information retrieval, the need for robust and domain-specific entity linking algorithms has become increasingly apparent. It is crucial in a considerable number of fields such as humanities, technical writing and biomedical sciences to enrich texts with semantics and discover more knowledge. The use of Named Entity Disambiguation (NED) in such domains requires handling noisy texts, low resource settings and domain-specific KBs. Existing approaches are mostly inappropriate for such scenarios, as they either depend on training data or are not flexible enough to work with domain-specific KBs. Thus in this work, we present an unsupervised approach leveraging the concept of Group Steiner Trees (GST), which can identify the most relevant candidates for entity disambiguation using the contextual similarities across candidate entities for all the mentions present in a document. We outperform the state-of-the-art unsupervised methods by more than 40\% (in avg.) in terms of Precision@1 across various domain-specific datasets.

arxiv情報

著者 Debarghya Datta,Soumajit Pramanik
発行日 2024-12-13 11:35:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク