BELB: a Biomedical Entity Linking Benchmark

要約

Biomedical Entity Linking (BEL) は、エンティティへの言及を知識ベースに固定するタスクです。
これは、生命科学文献の情報抽出パイプラインにおいて重要な役割を果たします。
私たちはこの分野での最近の研究をレビューし、このタスクが生物医学テキストマイニングの既存のベンチマークに含まれていないため、異なる研究では異なる実験設定が採用されており、公表された数値に基づく比較には問題があることがわかりました。
さらに、ニューラル システムは主に、広範囲をカバーするナレッジ ベース UMLS にリンクされたインスタンスでテストされ、パフォーマンスはより専門的なものに委ねられます。
遺伝子や変異体は十分に研究されていません。
そこで私たちは、遺伝子、疾患、化学物質、種、細胞株、変異体の 6 つのエンティティ タイプにわたる、7 つの知識ベースにリンクされた 11 のコーパスへの統一フォーマットでのアクセスを提供する、生物医学エンティティ リンク ベンチマークである BELB を開発しました。
BELB は、再現可能な実験のための標準化されたテストベッドを提供する複数のコーパスで BEL システムをテストする際の前処理オーバーヘッドを大幅に削減します。
BELB を使用して、6 つのルールベースのエンティティ固有システムと、事前トレーニングされた言語モデルを活用した 3 つの最近のニューラル アプローチの広範な評価を実行します。
私たちの結果は、ニューラルアプローチがエンティティタイプ間で一貫して実行できないことを示す複雑な状況を明らかにし、エンティティに依存しないモデルに向けたさらなる研究の必要性を強調しています。

要約(オリジナル)

Biomedical entity linking (BEL) is the task of grounding entity mentions to a knowledge base. It plays a vital role in information extraction pipelines for the life sciences literature. We review recent work in the field and find that, as the task is absent from existing benchmarks for biomedical text mining, different studies adopt different experimental setups making comparisons based on published numbers problematic. Furthermore, neural systems are tested primarily on instances linked to the broad coverage knowledge base UMLS, leaving their performance to more specialized ones, e.g. genes or variants, understudied. We therefore developed BELB, a Biomedical Entity Linking Benchmark, providing access in a unified format to 11 corpora linked to 7 knowledge bases and spanning six entity types: gene, disease, chemical, species, cell line and variant. BELB greatly reduces preprocessing overhead in testing BEL systems on multiple corpora offering a standardized testbed for reproducible experiments. Using BELB we perform an extensive evaluation of six rule-based entity-specific systems and three recent neural approaches leveraging pre-trained language models. Our results reveal a mixed picture showing that neural approaches fail to perform consistently across entity types, highlighting the need of further studies towards entity-agnostic models.

arxiv情報

著者 Samuele Garda,Leon Weber-Genzel,Robert Martin,Ulf Leser
発行日 2023-08-22 16:05:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク