Ontology-Driven and Weakly Supervised Rare Disease Identification from Clinical Notes

要約

タイトル:臨床ノートからのオントロジー駆動と弱監督による希少疾患の同定

要約:

– 現在、臨床ノートから患者の病気や特徴を同定する計算的テキストフェノタイピングが行われている。
– しかしながら、希少疾患の同定は、機械学習用の事例が少なく、ドメイン専門家の注釈作業が必要であるため、困難である。
– オントロジーと弱監督を用いた方法を提案する。BERTのような最近の事前学習された文脈表現も利用する。オントロジーベースのフレームワークには、2つのステップが含まれる。第1段階は、UMLS(Unified Medical Language System)内のコンセプトに文脈的にリンクして記述を抽出するText-to-UMLSである。第2段階は、UMLSの概念とOrphanet Rare Disease Ontology(ORDO)の希少疾患とのマッチングUMLS-to-ORDOである。
– 疾患の確認モデルを学習するための弱監督の手法を提案し、専門家からの注釈データなしでText-to-UMLSリンクを改善する。
– MIMIC-III退院要約、MIMIC-III放射線報告書、および米国と英国の2つの機関からのNHS Tayside脳画像報告書などの3つの臨床データセットでアプローチを評価した。既存のNER+LツールであるSemEHRに比べ、精度が著しく向上した。放射線報告書と退院要約の結果は一致していた。
– オントロジーベースフレームワークによる弱監督の方法は有用であり、将来の研究方向を提案する。 医師の手動で割り当てられたICDコードに捕捉されていない、ほとんどの構造化データでない希少疾患の症例を抽出するための効果的な方法である。

要約(オリジナル)

Computational text phenotyping is the practice of identifying patients with certain disorders and traits from clinical notes. Rare diseases are challenging to be identified due to few cases available for machine learning and the need for data annotation from domain experts. We propose a method using ontologies and weak supervision, with recent pre-trained contextual representations from Bi-directional Transformers (e.g. BERT). The ontology-based framework includes two steps: (i) Text-to-UMLS, extracting phenotypes by contextually linking mentions to concepts in Unified Medical Language System (UMLS), with a Named Entity Recognition and Linking (NER+L) tool, SemEHR, and weak supervision with customised rules and contextual mention representation; (ii) UMLS-to-ORDO, matching UMLS concepts to rare diseases in Orphanet Rare Disease Ontology (ORDO). The weakly supervised approach is proposed to learn a phenotype confirmation model to improve Text-to-UMLS linking, without annotated data from domain experts. We evaluated the approach on three clinical datasets, MIMIC-III discharge summaries, MIMIC-III radiology reports, and NHS Tayside brain imaging reports from two institutions in the US and the UK, with annotations. The improvements in the precision were pronounced (by over 30% to 50% absolute score for Text-to-UMLS linking), with almost no loss of recall compared to the existing NER+L tool, SemEHR. Results on radiology reports from MIMIC-III and NHS Tayside were consistent with the discharge summaries. The overall pipeline processing clinical notes can extract rare disease cases, mostly uncaptured in structured data (manually assigned ICD codes). We discuss the usefulness of the weak supervision approach and propose directions for future studies.

arxiv情報

著者 Hang Dong,Víctor Suárez-Paniagua,Huayu Zhang,Minhong Wang,Arlene Casey,Emma Davidson,Jiaoyan Chen,Beatrice Alex,William Whiteley,Honghan Wu
発行日 2023-05-03 06:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: 68T30, 68T50, cs.CL, I.2.7 パーマリンク