BELHD: Improving Biomedical Entity Linking with Homonoym Disambiguation

要約

Biomedical Entity Linking (BEL) は、エンティティの言及をナレッジ ベース (KB) に固定するタスクです。
このタスクに対する一般的なアプローチは、名前ベースの方法です。つまり、高密度検索または自己回帰モデリングを介して、特定のメンションに対して KB 内で最も適切な名前を特定する方法です。
ただし、これらのメソッドは KB 名を直接返すため、同義語、つまりまったく同じ名前を共有する異なる KB エンティティには対処できません。
これは、特に同音異義語がエンティティの言及の多くを占める KB (UMLS や NCBI Gene など) のパフォーマンスに大きく影響します。
そこで、我々は、この課題に対処する新しい名前ベースの手法である BELHD (Biomedical Entity Linking with Homonym Disambiguation) を提案します。
具体的には、BELHD は BioSyn (Sung et al.,2020) モデルに基づいて構築されており、2 つの重要な拡張機能が導入されています。
まず、KB の前処理を実行し、自動的に選択された曖昧さ回避文字列を使用して同音異義語を展開し、一意のリンク決定を強制します。
次に、候補共有を導入します。これは、全体的なトレーニング信号を強化する対照学習の候補を選択するための新しい戦略です。
10 個のコーパスと 5 つのエンティティ タイプを使用した実験では、BELHD が最先端のアプローチを改善し、10 個のコーパスのうち 6 個で最良の結果を達成し、平均 4.55pp リコール@1 の改善を達成したことが示されています。
さらに、KB 前処理はコア予測モデルと直交しているため、生成名ベースの BEL アプローチである GenBioEL (Yuan et al, 2022) で例示する他の方法も改善できます。
コードは、公開時に追加されたリンクから入手できます。

要約(オリジナル)

Biomedical entity linking (BEL) is the task of grounding entity mentions to a knowledge base (KB). A popular approach to the task are name-based methods, i.e. those identifying the most appropriate name in the KB for a given mention, either via dense retrieval or autoregressive modeling. However, as these methods directly return KB names, they cannot cope with homonyms, i.e. different KB entities sharing the exact same name. This significantly affects their performance, especially for KBs where homonyms account for a large amount of entity mentions (e.g. UMLS and NCBI Gene). We therefore present BELHD (Biomedical Entity Linking with Homonym Disambiguation), a new name-based method that copes with this challenge. Specifically, BELHD builds upon the BioSyn (Sung et al.,2020) model introducing two crucial extensions. First, it performs a preprocessing of the KB in which it expands homonyms with an automatically chosen disambiguating string, thus enforcing unique linking decisions. Second, we introduce candidate sharing, a novel strategy to select candidates for contrastive learning that enhances the overall training signal. Experiments with 10 corpora and five entity types show that BELHD improves upon state-of-the-art approaches, achieving the best results in 6 out 10 corpora with an average improvement of 4.55pp recall@1. Furthermore, the KB preprocessing is orthogonal to the core prediction model and thus can also improve other methods, which we exemplify for GenBioEL (Yuan et al, 2022), a generative name-based BEL approach. Code is available at: link added upon publication.

arxiv情報

著者 Samuele Garda,Ulf Leser
発行日 2024-01-10 12:45:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク