Capabilities of GPT-4 on Medical Challenge Problems

要約

タイトル:GPT-4の医療課題における能力

要約:
– LLMsは、医療を含むさまざまな領域での自然言語理解と生成において、驚くべき能力を示している。
– GPT-4は、医療課題に特化したトレーニングを受けたり、クリニカルタスクを解決するように設計されたわけではない汎用モデルである。
– GPT-4の総合的な評価は、米国で臨床的能力を評価し免許を与えるために使用されるUSMLEの2つの公式練習材料セットと、MultiMedQAのベンチマークデータセットをカバーしている。
– テスト問題にテキストと画像の両方が含まれる影響を調査し、トレーニング中のコンテンツの暗記を調べ、確率のキャリブレーションを研究する実験も行われた。
– 結果は、GPT-4が特定のプロンプトクラフトなしでUSMLE合格点を20ポイント以上上回り、以前の汎用モデル(GPT-3.5)や医療知識に特化したモデル(Med-PaLM)を凌駕していることを示している。
– GPT-4は、GPT-3.5よりも優れたキャリブレーション能力を持ち、正答率を予測する能力が向上している。
– ケーススタディによって、GPT-4が医療推論を説明し、学生に適した説明を提供し、医療ケースに関連するカウンターファクトシナリオを対話的に作成する能力があることが示されている。
– 結果の意義については、GPT-4の医療教育、評価、臨床実践における潜在的な使用法が議論されている。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities in natural language understanding and generation across various domains, including medicine. We present a comprehensive evaluation of GPT-4, a state-of-the-art LLM, on medical competency examinations and benchmark datasets. GPT-4 is a general-purpose model that is not specialized for medical problems through training or engineered to solve clinical tasks. Our analysis covers two sets of official practice materials for the USMLE, a three-step examination program used to assess clinical competency and grant licensure in the United States. We also evaluate performance on the MultiMedQA suite of benchmark datasets. Beyond measuring model performance, experiments were conducted to investigate the influence of test questions containing both text and images on model performance, probe for memorization of content during training, and study probability calibration, which is of critical importance in high-stakes applications like medicine. Our results show that GPT-4, without any specialized prompt crafting, exceeds the passing score on USMLE by over 20 points and outperforms earlier general-purpose models (GPT-3.5) as well as models specifically fine-tuned on medical knowledge (Med-PaLM, a prompt-tuned version of Flan-PaLM 540B). In addition, GPT-4 is significantly better calibrated than GPT-3.5, demonstrating a much-improved ability to predict the likelihood that its answers are correct. We also explore the behavior of the model qualitatively through a case study that shows the ability of GPT-4 to explain medical reasoning, personalize explanations to students, and interactively craft new counterfactual scenarios around a medical case. Implications of the findings are discussed for potential uses of GPT-4 in medical education, assessment, and clinical practice, with appropriate attention to challenges of accuracy and safety.

arxiv情報

著者 Harsha Nori,Nicholas King,Scott Mayer McKinney,Dean Carignan,Eric Horvitz
発行日 2023-04-12 16:48:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク