要約
動機: 固有表現認識 (NER) は、生物医学研究をサポートするための重要なタスクです。
Biomedical Named Entity Recognition (BioNER) では、高品質の専門家による注釈付きデータの取得は手間とコストがかかるため、遠隔監視などの自動アプローチの開発につながります。
ただし、手動および自動で生成されたデータは、多くの場合、ラベルのないエンティティの問題に悩まされます。この問題により、多くのエンティティの注釈が欠落し、完全な注釈 NER モデルのパフォーマンスが低下します。
結果: この問題に対処するために、エンティティ アノテーションが欠落しているさまざまなシミュレートされたシナリオに対して、生物医学エンティティ認識のための部分アノテーション学習方法の有効性を系統的に研究しました。
さらに、TS-PubMedBERT-Partial-CRF部分アノテーション学習モデルを提案します。
私たちは、5 つのエンティティ タイプを含む 15 の生物医学 NER コーパスをゴールド スタンダードとして調和させ、一般的に使用される 2 つの部分アノテーション学習モデル、BiLSTM-Partial-CRF および EER-PubMedBERT、および最先端の完全アノテーション学習 BioNER と比較します。
PubMedBERT タガーのモデル。
結果は、部分注釈学習ベースの方法が、エンティティ注釈が欠落している生物医学コーパスから効果的に学習できることを示しています。
私たちが提案したモデルは、エンティティ欠落率が高い場合でも、代替モデル、特に PubMedBERT タガーよりも F1 スコアで 38% 優れています。
私たちのモデルにおけるエンティティへの言及の再現率も、完全に注釈が付けられたデータセットの上限と競合します。
要約(オリジナル)
Motivation: Named Entity Recognition (NER) is a key task to support biomedical research. In Biomedical Named Entity Recognition (BioNER), obtaining high-quality expert annotated data is laborious and expensive, leading to the development of automatic approaches such as distant supervision. However, manually and automatically generated data often suffer from the unlabeled entity problem, whereby many entity annotations are missing, degrading the performance of full annotation NER models. Results: To address this problem, we systematically study the effectiveness of partial annotation learning methods for biomedical entity recognition over different simulated scenarios of missing entity annotations. Furthermore, we propose a TS-PubMedBERT-Partial-CRF partial annotation learning model. We harmonize 15 biomedical NER corpora encompassing five entity types to serve as a gold standard and compare against two commonly used partial annotation learning models, BiLSTM-Partial-CRF and EER-PubMedBERT, and the state-of-the-art full annotation learning BioNER model PubMedBERT tagger. Results show that partial annotation learning-based methods can effectively learn from biomedical corpora with missing entity annotations. Our proposed model outperforms alternatives and, specifically, the PubMedBERT tagger by 38% in F1-score under high missing entity rates. The recall of entity mentions in our model is also competitive with the upper bound on the fully annotated dataset.
arxiv情報
著者 | Liangping Ding,Giovanni Colavizza,Zhixiong Zhang |
発行日 | 2023-05-22 15:18:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google