Large Language Models with Retrieval-Augmented Generation for Zero-Shot Disease Phenotyping

要約

電子医療記録 (EHR) から疾患の表現型を特定することは、多くの二次利用にとって重要です。
医師の知識を手動でルールにエンコードすることは、EHR コーディングが不十分であるため、希少疾患の場合は特に困難であり、臨床記録のレビューが必要になります。
大規模言語モデル (LLM) は、テキストの理解には期待できますが、現実世界の臨床文書を効率的に処理できない場合があります。
我々は、検索拡張生成と MapReduce によって強化されたゼロショット LLM ベースの手法を提案します。これは、診断を確立するために LLM のクエリとして並行して使用される疾患関連のテキスト スニペットを事前に識別します。
我々は、この方法を肺高血圧症(PH)という肺の動脈圧の上昇を特徴とする稀な疾患に適用すると、医師の論理ルール($F_1$スコア0.62対0.75)を大幅に上回ることを示した。
この方法は、希少疾患コホートの特定を強化し、強力な臨床研究とケアギャップの特定の範囲を拡大する可能性があります。

要約(オリジナル)

Identifying disease phenotypes from electronic health records (EHRs) is critical for numerous secondary uses. Manually encoding physician knowledge into rules is particularly challenging for rare diseases due to inadequate EHR coding, necessitating review of clinical notes. Large language models (LLMs) offer promise in text understanding but may not efficiently handle real-world clinical documentation. We propose a zero-shot LLM-based method enriched by retrieval-augmented generation and MapReduce, which pre-identifies disease-related text snippets to be used in parallel as queries for the LLM to establish diagnosis. We show that this method as applied to pulmonary hypertension (PH), a rare disease characterized by elevated arterial pressures in the lungs, significantly outperforms physician logic rules ($F_1$ score of 0.62 vs. 0.75). This method has the potential to enhance rare disease cohort identification, expanding the scope of robust clinical research and care gap identification.

arxiv情報

著者 Will E. Thompson,David M. Vidmar,Jessica K. De Freitas,John M. Pfeifer,Brandon K. Fornwalt,Ruijun Chen,Gabriel Altay,Kabir Manghnani,Andrew C. Nelsen,Kellie Morland,Martin C. Stumpe,Riccardo Miotto
発行日 2023-12-11 15:45:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, I.2.7 パーマリンク