要約
Biomedical Entity Linking (BioEL) は、事前トレーニングされた言語モデルの助けを借りて目覚ましい進歩を遂げました。
ただし、既存の BioEL 手法は通常、ロングテール分布のため、まれで困難なエンティティを処理するのに苦労します。
この制限に対処するために、新しいスキーム $k$NN-BioEL を導入します。これは、トレーニング コーパス全体から類似したインスタンスを予測の手掛かりとして参照する機能を BioEL モデルに提供し、汎化機能を向上させます。
さらに、推論中に取得された近傍の品質を向上させる動的ハード ネガティブ サンプリング (DHNS) を使用した対照学習目標を設計します。
広範な実験結果は、$k$NN-BioEL がいくつかのデータセットで最先端のベースラインを上回るパフォーマンスを示すことを示しています。
要約(オリジナル)
Biomedical entity linking (BioEL) has achieved remarkable progress with the help of pre-trained language models. However, existing BioEL methods usually struggle to handle rare and difficult entities due to long-tailed distribution. To address this limitation, we introduce a new scheme $k$NN-BioEL, which provides a BioEL model with the ability to reference similar instances from the entire training corpus as clues for prediction, thus improving the generalization capabilities. Moreover, we design a contrastive learning objective with dynamic hard negative sampling (DHNS) that improves the quality of the retrieved neighbors during inference. Extensive experimental results show that $k$NN-BioEL outperforms state-of-the-art baselines on several datasets.
arxiv情報
著者 | Zhenxi Lin,Ziheng Zhang,Xian Wu,Yefeng Zheng |
発行日 | 2023-12-15 14:04:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google