Ontology-Driven and Weakly Supervised Rare Disease Identification from Clinical Notes

要約

計算テキスト表現型解析は、臨床記録から特定の障害や特徴を持つ患者を識別する手法です。
希少疾患は、機械学習に利用できるケースがほとんどなく、ドメインの専門家によるデータ注釈が必要であるため、特定が困難です。
双方向トランスフォーマー(BERTなど)からの最近の事前トレーニングされたコンテキスト表現を使用して、オントロジーと弱い監督を使用する方法を提案します。
オントロジーベースのフレームワークには、2 つのステップが含まれます。
、カスタマイズされたルールと文脈上の言及表現による弱い監督。
(ii) UMLS-to-ORDO。Orphanet Rare Disease Ontology (ORDO) で UMLS の概念を希少疾患に対応させます。
ドメインの専門家からの注釈付きデータなしで、テキストからUMLSへのリンクを改善するために表現型確認モデルを学習するために、弱い教師ありアプローチが提案されています。
米国と英国の 2 つの機関からの 3 つの臨床データセット、MIMIC-III 退院サマリー、MIMIC-III 放射線レポート、NHS Tayside 脳画像レポートのアプローチを注釈付きで評価しました。
既存の NER+L ツールである SemEHR と比較して、再現率の低下はほとんどなく (テキストから UMLS へのリンクの絶対スコアが 30% から 50% 以上向上)、精度の向上が顕著でした。
MIMIC-III および NHS Tayside からの放射線レポートの結果は、退院の概要と一致していました。
臨床メモを処理する全体的なパイプラインは、ほとんどが構造化データ (手動で割り当てられた ICD コード) に取り込まれていない希少疾患の症例を抽出できます。
弱い監督アプローチの有用性について議論し、今後の研究の方向性を提案します。

要約(オリジナル)

Computational text phenotyping is the practice of identifying patients with certain disorders and traits from clinical notes. Rare diseases are challenging to be identified due to few cases available for machine learning and the need for data annotation from domain experts. We propose a method using ontologies and weak supervision, with recent pre-trained contextual representations from Bi-directional Transformers (e.g. BERT). The ontology-based framework includes two steps: (i) Text-to-UMLS, extracting phenotypes by contextually linking mentions to concepts in Unified Medical Language System (UMLS), with a Named Entity Recognition and Linking (NER+L) tool, SemEHR, and weak supervision with customised rules and contextual mention representation; (ii) UMLS-to-ORDO, matching UMLS concepts to rare diseases in Orphanet Rare Disease Ontology (ORDO). The weakly supervised approach is proposed to learn a phenotype confirmation model to improve Text-to-UMLS linking, without annotated data from domain experts. We evaluated the approach on three clinical datasets, MIMIC-III discharge summaries, MIMIC-III radiology reports, and NHS Tayside brain imaging reports from two institutions in the US and the UK, with annotations. The improvements in the precision were pronounced (by over 30% to 50% absolute score for Text-to-UMLS linking), with almost no loss of recall compared to the existing NER+L tool, SemEHR. Results on radiology reports from MIMIC-III and NHS Tayside were consistent with the discharge summaries. The overall pipeline processing clinical notes can extract rare disease cases, mostly uncaptured in structured data (manually assigned ICD codes). We discuss the usefulness of the weak supervision approach and propose directions for future studies.

arxiv情報

著者 Hang Dong,Víctor Suárez-Paniagua,Huayu Zhang,Minhong Wang,Arlene Casey,Emma Davidson,Jiaoyan Chen,Beatrice Alex,William Whiteley,Honghan Wu
発行日 2023-02-28 20:58:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T30, 68T50, cs.CL, I.2.7 パーマリンク