要約
生物医学固有表現認識 (NER) は、複雑で専門用語が多く、ばらつきが大きい臨床文書内の構造化情報を識別することを目的とした重要なタスクです。
正確で信頼性の高い NER により、重要な生体医学情報の抽出と分析が容易になり、医療システムなどの下流アプリケーションの改善に使用できます。
ただし、生物医学分野の NER は、データに注釈を付けるために高度な専門知識、時間、費用が必要となるため、利用可能なデータが限られているため困難が伴います。
この論文では、限られたデータを使用して、コーパス注釈スキーム、データ拡張技術、半教師あり学習、ブリル変換などのさまざまな外部要因を調査し、臨床テキスト データセット (i2b2 2012,
\citet{sun-rumshisky-uzuner:2013})。
私たちの実験では、これらのアプローチによりモデルの F1 スコアが元の 73.74 から 77.55 に大幅に改善できることが実証されました。
私たちの調査結果は、さまざまな外部要因を考慮し、これらの技術を組み合わせることが、データのサイズが制限されている生物医学領域で NER のパフォーマンスを向上させるための有望なアプローチであることを示唆しています。
要約(オリジナル)
Biomedical named entity recognition (NER) is a critial task that aims to identify structured information in clinical text, which is often replete with complex, technical terms and a high degree of variability. Accurate and reliable NER can facilitate the extraction and analysis of important biomedical information, which can be used to improve downstream applications including the healthcare system. However, NER in the biomedical domain is challenging due to limited data availability, as the high expertise, time, and expenses are required to annotate its data. In this paper, by using the limited data, we explore various extrinsic factors including the corpus annotation scheme, data augmentation techniques, semi-supervised learning and Brill transformation, to improve the performance of a NER model on a clinical text dataset (i2b2 2012, \citet{sun-rumshisky-uzuner:2013}). Our experiments demonstrate that these approaches can significantly improve the model’s F1 score from original 73.74 to 77.55. Our findings suggest that considering different extrinsic factors and combining these techniques is a promising approach for improving NER performance in the biomedical domain where the size of data is limited.
arxiv情報
著者 | Zhiyi Li,Shengjie Zhang,Yujie Song,Jungyeul Park |
発行日 | 2023-05-29 15:29:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google