DMNER: Biomedical Entity Recognition by Detection and Matching

要約

生物医学固有表現認識 (BNER) は、数多くの生物医学テキスト マイニング タスクの基盤として機能します。
一般的な NER とは異なり、BNER ではドメインを包括的に把握する必要があり、トレーニング データ以外の外部知識を組み込むことは大きな課題となります。
この研究では、DMNERと呼ばれる新しいBNERフレームワークを提案します。
既存のエンティティ表現モデル SAPBERT を活用することで、エンティティ境界検出と生物医学的エンティティのマッチングという 2 段階のプロセスとして BNER に取り組みます。
DMNER は、複数の NER シナリオにわたって適用可能です。 1) 教師あり NER では、DMNER がベースライン NER モデルの出力を効果的に修正し、それによってパフォーマンスがさらに向上することが観察されます。
2) 遠隔監視型 NER では、MRC と AutoNER をスパン境界検出器として組み合わせることで、DMNER が満足のいく結果を達成できるようになります。
3) 複数のデータセットを結合して NER をトレーニングする場合、DS-NER と同様のフレームワークを採用しますが、さらに ChatGPT を活用してトレーニングで高品質なフレーズを取得します。
10 のベンチマーク データセットに対して行われた広範な実験を通じて、DMNER の多用途性と有効性を実証しました。

要約(オリジナル)

Biomedical named entity recognition (BNER) serves as the foundation for numerous biomedical text mining tasks. Unlike general NER, BNER require a comprehensive grasp of the domain, and incorporating external knowledge beyond training data poses a significant challenge. In this study, we propose a novel BNER framework called DMNER. By leveraging existing entity representation models SAPBERT, we tackle BNER as a two-step process: entity boundary detection and biomedical entity matching. DMNER exhibits applicability across multiple NER scenarios: 1) In supervised NER, we observe that DMNER effectively rectifies the output of baseline NER models, thereby further enhancing performance. 2) In distantly supervised NER, combining MRC and AutoNER as span boundary detectors enables DMNER to achieve satisfactory results. 3) For training NER by merging multiple datasets, we adopt a framework similar to DS-NER but additionally leverage ChatGPT to obtain high-quality phrases in the training. Through extensive experiments conducted on 10 benchmark datasets, we demonstrate the versatility and effectiveness of DMNER.

arxiv情報

著者 Junyi Bian,Rongze Jiang,Weiqi Zhai,Tianyang Huang,Hong Zhou,Shanfeng Zhu
発行日 2023-07-05 12:26:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク