Biomedical Entity Linking for Dutch: Fine-tuning a Self-alignment BERT Model on an Automatically Generated Wikipedia Corpus

要約

健康関連のテキストからの自動情報抽出の主要コンポーネントである生物医学エンティティのリンクは、テキストの実体 (患者が言及した病気、薬、体の部位など) を、構造化された生物医学知識ベース内の対応する概念に結び付ける上で極めて重要な役割を果たします。
自然言語処理の最近の発展にもかかわらず、このタスクは依然として困難です。
この論文では、オランダ語の最初に評価された生物医学実体リンク モデルを紹介します。
MedRoBERTa.nl をベースモデルとして使用し、UMLS およびオランダの SNOMED から抽出されたオランダの生物医学オントロジーに対して自己調整を通じて第 2 フェーズの事前トレーニングを実行します。
私たちはウィキペディアからオントロジーにリンクされたオランダの生物医学実体のコンテキスト内のコーパスを取得し、このデータセットに基づいてモデルを微調整します。
Mantra GSC コーパスのオランダ部分でモデルを評価し、54.7% の分類精度と 69.8% の 1 距離精度を達成しました。
次に、ラベルのない患者サポート フォーラム データのコレクションに対してケース スタディを実行し、先行するエンティティ認識ステップの品質の制限によってモデルが妨げられていることを示します。
小規模なサンプルを手動で評価すると、正しく抽出されたエンティティのうち、約 65% がオントロジーの正しい概念にリンクされていることがわかります。
私たちの結果は、英語以外の言語で生物医学エンティティをリンクすることは依然として困難であることを示していますが、オランダ語モデルは患者が作成したテキストの高度な分析に使用できます。

要約(オリジナル)

Biomedical entity linking, a main component in automatic information extraction from health-related texts, plays a pivotal role in connecting textual entities (such as diseases, drugs and body parts mentioned by patients) to their corresponding concepts in a structured biomedical knowledge base. The task remains challenging despite recent developments in natural language processing. This paper presents the first evaluated biomedical entity linking model for the Dutch language. We use MedRoBERTa.nl as base model and perform second-phase pretraining through self-alignment on a Dutch biomedical ontology extracted from the UMLS and Dutch SNOMED. We derive a corpus from Wikipedia of ontology-linked Dutch biomedical entities in context and fine-tune our model on this dataset. We evaluate our model on the Dutch portion of the Mantra GSC-corpus and achieve 54.7% classification accuracy and 69.8% 1-distance accuracy. We then perform a case study on a collection of unlabeled, patient-support forum data and show that our model is hampered by the limited quality of the preceding entity recognition step. Manual evaluation of small sample indicates that of the correctly extracted entities, around 65% is linked to the correct concept in the ontology. Our results indicate that biomedical entity linking in a language other than English remains challenging, but our Dutch model can be used to for high-level analysis of patient-generated text.

arxiv情報

著者 Fons Hartendorp,Tom Seinen,Erik van Mulligen,Suzan Verberne
発行日 2024-05-20 10:30:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク