要約
BioCreative8 Track 3 の目的は、EHR テキストに埋め込まれた表現型の主要な医学的所見を抽出し、その後、これらの所見をヒト表現型オントロジー (HPO) 用語に正規化することです。
ただし、表現型所見には多様な表面形態が存在するため、それらを正しい HPO 用語に正確に正規化することが困難になります。
この課題に対処するために、私たちは固有表現認識のさまざまなモデルを検討し、正規化ステップを強化するために同義語の周辺化などのデータ拡張手法を実装しました。
私たちのパイプラインの結果、正確な抽出と正規化の F1 スコアは、チャレンジに応じて受け取ったすべての提出物の平均スコアより 2.6\% 高くなりました。
さらに、正規化 F1 スコアに関して、私たちのアプローチは平均パフォーマンスを 1.9% 上回りました。
これらの発見は、自動医療データ抽出および正規化技術の進歩に貢献し、生物医学分野における将来の研究および応用への潜在的な道筋を示しています。
要約(オリジナル)
The objective of BioCreative8 Track 3 is to extract phenotypic key medical findings embedded within EHR texts and subsequently normalize these findings to their Human Phenotype Ontology (HPO) terms. However, the presence of diverse surface forms in phenotypic findings makes it challenging to accurately normalize them to the correct HPO terms. To address this challenge, we explored various models for named entity recognition and implemented data augmentation techniques such as synonym marginalization to enhance the normalization step. Our pipeline resulted in an exact extraction and normalization F1 score 2.6\% higher than the mean score of all submissions received in response to the challenge. Furthermore, in terms of the normalization F1 score, our approach surpassed the average performance by 1.9\%. These findings contribute to the advancement of automated medical data extraction and normalization techniques, showcasing potential pathways for future research and application in the biomedical domain.
arxiv情報
著者 | Hajung Kim,Chanhwi Kim,Jiwoong Sohn,Tim Beck,Marek Rei,Sunkyu Kim,T Ian Simpson,Joram M Posma,Antoine Lain,Mujeen Sung,Jaewoo Kang |
発行日 | 2025-01-16 18:53:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google