ClinLinker: Medical Entity Linking of Clinical Concept Mentions in Spanish

要約

固有表現認識や、UMLS や SNOMED-CT などの広く使用されている標準用語への正規化などの自然言語処理技術の進歩と、電子医療記録のデジタル化により、臨床テキスト分析が大幅に進歩しました。
この研究では、ClinLinker という新しいアプローチを紹介します。これは、生物医学テキスト マイニングにドメイン内で適応した言語モデルの可能性を活用する、医療エンティティ リンクのための 2 フェーズ パイプラインを採用した新しいアプローチです。SapBERT ベースのバイ エンコーダを使用した最初の候補検索とその後の再ランキングです。
クロスエンコーダーを使用し、スペイン語の医療概念に合わせた対照学習戦略に従ってトレーニングされます。
この方法論は当初スペイン語のコンテンツに焦点を当てており、同じ目的で設計された多言語言語モデルを大幅に上回りました。
これは、異種の医療用語が含まれ、元のデータのサブセットでトレーニングされている複雑なシナリオにも当てはまります。
25 での上位 k の精度とその他の上位 k の指標を使用して評価された結果は、ゴールド スタンダード コーパス、DisTEMIST (疾患) と MedProcNER (臨床手順) を結び付ける 2 つの異なる臨床エンティティに対するアプローチのパフォーマンスを示しており、以前のベンチマークを 40 ポイント上回っています。
DisTEMIST と MedProcNER の 43 ポイント、どちらも SNOMED-CT コードに正規化されています。
これらの発見は、言語特有のニュアンスに対処し、エンティティリンクの新たなベンチマークを設定する私たちのアプローチの能力を強調し、デジタル医療記録の有用性を高める強力なツールを提供します。
結果として得られるシステムは、臨床記録から得られる構造化データの大規模な自動生成と、対象となる事前定義された臨床変数の徹底的な抽出および調和の両方において、実用的な価値があります。

要約(オリジナル)

Advances in natural language processing techniques, such as named entity recognition and normalization to widely used standardized terminologies like UMLS or SNOMED-CT, along with the digitalization of electronic health records, have significantly advanced clinical text analysis. This study presents ClinLinker, a novel approach employing a two-phase pipeline for medical entity linking that leverages the potential of in-domain adapted language models for biomedical text mining: initial candidate retrieval using a SapBERT-based bi-encoder and subsequent re-ranking with a cross-encoder, trained by following a contrastive-learning strategy to be tailored to medical concepts in Spanish. This methodology, focused initially on content in Spanish, substantially outperforming multilingual language models designed for the same purpose. This is true even for complex scenarios involving heterogeneous medical terminologies and being trained on a subset of the original data. Our results, evaluated using top-k accuracy at 25 and other top-k metrics, demonstrate our approach’s performance on two distinct clinical entity linking Gold Standard corpora, DisTEMIST (diseases) and MedProcNER (clinical procedures), outperforming previous benchmarks by 40 points in DisTEMIST and 43 points in MedProcNER, both normalized to SNOMED-CT codes. These findings highlight our approach’s ability to address language-specific nuances and set a new benchmark in entity linking, offering a potent tool for enhancing the utility of digital medical records. The resulting system is of practical value, both for large scale automatic generation of structured data derived from clinical records, as well as for exhaustive extraction and harmonization of predefined clinical variables of interest.

arxiv情報

著者 Fernando Gallego,Guillermo López-García,Luis Gasco-Sánchez,Martin Krallinger,Francisco J. Veredas
発行日 2024-04-09 15:04:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク