Question-Answering System Extracts Information on Injection Drug Use from Clinical Progress Notes


注射薬使用(IDU)は、死亡率と罹患率を高める危険な健康行動である。IDUを早期に発見し、害を減らすための介入を開始することは、危険にさらされている個人の利益につながります。しかし、患者の電子カルテ(EHR)からIDU行動を抽出することは、国際疾病分類(ICD)コードがなく、IDU情報を示すことができるのは構造化されていないフリーテキストの臨床経過記録のみであるため、困難である。自然言語処理(NLP)は、非構造化データからこの情報を効率的に抽出することができますが、有効なツールは存在しません。この臨床情報のギャップに対処するため、我々は、臨床経過記録からIDUに関する情報を抽出するための質問応答(QA)フレームワークを設計し、実証した。文献で議論されている他の方法とは異なり、QAモデルは、事前に定義されたエンティティ、関係、または概念に制約されることなく、様々な種類の情報を抽出することができます。私たちのフレームワークは、2つの主要なステップを含みます:(1) ゴールドスタンダードなQAデータセットの生成、(2) QAモデルの開発およびテスト。また、本論文では、QAモデルが、時間的に流通しないデータに対してIDU関連情報を抽出できることを実証している。その結果、QAモデルによって抽出された情報の大部分(51%)はゴールドスタンダードの答えと完全に一致し、73%はゴールドスタンダードの答えにいくつかの周囲の単語を追加したものを含むことがわかった。


Injection drug use (IDU) is a dangerous health behavior that increases mortality and morbidity. Identifying IDU early and initiating harm reduction interventions can benefit individuals at risk. However, extracting IDU behaviors from patients’ electronic health records (EHR) is difficult because there is no International Classification of Disease (ICD) code and the only place IDU information can be indicated are unstructured free-text clinical progress notes. Although natural language processing (NLP) can efficiently extract this information from unstructured data, there are no validated tools. To address this gap in clinical information, we design and demonstrate a question-answering (QA) framework to extract information on IDU from clinical progress notes. Unlike other methods discussed in the literature, the QA model is able to extract various types of information without being constrained by predefined entities, relations, or concepts. Our framework involves two main steps: (1) generating a gold-standard QA dataset and (2) developing and testing the QA model. This paper also demonstrates the QA model’s ability to extract IDU-related information on temporally out-of-distribution data. The results indicate that the majority (51%) of the extracted information by the QA model exactly matches the gold-standard answer and 73% of them contain the gold-standard answer with some additional surrounding words.


著者 Maria Mahbub,Ian Goethert,Ioana Danciu,Kathryn Knight,Sudarshan Srinivasan,Suzanne Tamang,Karine Rozenberg-Ben-Dror,Hugo Solares,Susana Martins,Edmon Begoli,Gregory D. Peterson
発行日 2023-05-15 16:37:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク