The Potential and Pitfalls of using a Large Language Model such as ChatGPT or GPT-4 as a Clinical Assistant

要約

最近の研究では、いくつかの医療分野のタスクにおける ChatGPT および GPT-4 の有望なパフォーマンスが実証されています。
しかし、実際の大規模な電子医療記録データベースを使用してそのパフォーマンスを評価した人は誰もいませんし、あらゆる疾患症状にわたって患者に臨床診断支援を提供する際のその有用性を評価した人もいません。
私たちは ChatGPT と GPT-4 を使用して 2 つの分析を実行しました。1 つは現実世界の大規模な電子医療記録データベースを使用して特定の医学的診断を受けた患者を特定するため、もう 1 つは仮説上の患者の前向き評価において医療従事者に診断支援を提供するためです。
私たちの結果は、思考連鎖と少数ショットのプロンプトを備えた疾患分類タスク全体にわたる GPT-4 が、96% の F1 スコアという高いパフォーマンスを達成できることを示しています。
患者の評価については、GPT-4 は 4 回中 3 回を正確に診断できます。
しかし、事実に誤りがある陳述、重要な医学的所見の見落とし、不必要な検査や過剰治療の推奨についての言及もあった。
これらの問題とプライバシー上の懸念により、これらのモデルは現在、実際の臨床用途には不十分です。
ただし、従来の機械学習ワークフローの構成と比較して、迅速なエンジニアリングに必要なデータと時間が限られているため、ヘルスケア アプリケーション全体での拡張性の可能性が強調されます。

要約(オリジナル)

Recent studies have demonstrated promising performance of ChatGPT and GPT-4 on several medical domain tasks. However, none have assessed its performance using a large-scale real-world electronic health record database, nor have evaluated its utility in providing clinical diagnostic assistance for patients across a full range of disease presentation. We performed two analyses using ChatGPT and GPT-4, one to identify patients with specific medical diagnoses using a real-world large electronic health record database and the other, in providing diagnostic assistance to healthcare workers in the prospective evaluation of hypothetical patients. Our results show that GPT-4 across disease classification tasks with chain of thought and few-shot prompting can achieve performance as high as 96% F1 scores. For patient assessment, GPT-4 can accurately diagnose three out of four times. However, there were mentions of factually incorrect statements, overlooking crucial medical findings, recommendations for unnecessary investigations and overtreatment. These issues coupled with privacy concerns, make these models currently inadequate for real world clinical use. However, limited data and time needed for prompt engineering in comparison to configuration of conventional machine learning workflows highlight their potential for scalability across healthcare applications.

arxiv情報

著者 Jingqing Zhang,Kai Sun,Akshay Jagadeesh,Mahta Ghahfarokhi,Deepa Gupta,Ashok Gupta,Vibhor Gupta,Yike Guo
発行日 2023-07-16 21:19:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク