Zero-shot Learning with Minimum Instruction to Extract Social Determinants and Family History from Clinical Notes using GPT Model

要約

電子医療記録内の非構造化テキストに文書化された人口動態、健康の社会的決定要因、家族歴は、医療成果を向上させるために構造化データとどのようにこの情報を活用できるかを理解するために、ますます研究されています。
GPT モデルが発表された後、多くの研究が GPT モデルを適用して、ナラティブな臨床ノートからこの情報を抽出しました。
既存の研究とは異なり、私たちの研究は、GPT モデルに最小限の情報を提供することで、この情報をまとめて抽出するゼロショット学習の調査に焦点を当てています。
私たちは、人口統計、さまざまな社会的決定要因、家族歴情報の注釈が付けられた、匿名化された現実世界の臨床ノートを利用します。
GPT モデルが元のデータのテキストとは異なるテキストを提供する可能性があることを考慮して、パフォーマンスを完全に理解するために、従来の NER 評価メトリックと意味的類似性評価メトリックを含む 2 つの評価メトリック セットを調査します。
我々の結果は、GPT-3.5 メソッドが人口統計抽出で平均 0.975 F1、社会的決定要因抽出で 0.615 F1、家族歴抽出で 0.722 F1 を達成したことを示しています。
これらの結果は、モデルの微調整や少数ショット学習を通じてさらに改善できると考えています。
ケーススタディを通じて、将来の研究で対処する必要がある GPT モデルの限界も特定しました。

要約(オリジナル)

Demographics, Social determinants of health, and family history documented in the unstructured text within the electronic health records are increasingly being studied to understand how this information can be utilized with the structured data to improve healthcare outcomes. After the GPT models were released, many studies have applied GPT models to extract this information from the narrative clinical notes. Different from the existing work, our research focuses on investigating the zero-shot learning on extracting this information together by providing minimum information to the GPT model. We utilize de-identified real-world clinical notes annotated for demographics, various social determinants, and family history information. Given that the GPT model might provide text different from the text in the original data, we explore two sets of evaluation metrics, including the traditional NER evaluation metrics and semantic similarity evaluation metrics, to completely understand the performance. Our results show that the GPT-3.5 method achieved an average of 0.975 F1 on demographics extraction, 0.615 F1 on social determinants extraction, and 0.722 F1 on family history extraction. We believe these results can be further improved through model fine-tuning or few-shots learning. Through the case studies, we also identified the limitations of the GPT models, which need to be addressed in future research.

arxiv情報

著者 Neel Jitesh Bhate,Ansh Mittal,Zhe He,Xiao Luo
発行日 2023-09-11 14:16:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク