Accuracy of a Vision-Language Model on Challenging Medical Cases

要約

背景: テキストと画像の両方を利用する汎用の大規模言語モデルは、さまざまな困難な医療ケースでは評価されていません。
方法: 2005 年から 2023 年の間に公開された NEJM Image Challenge の 934 件のケースを使用して、最近リリースされた Generative Pre-trained Transformer 4 with Vision モデル (GPT-4V) の精度を人間の回答者全体と比較し、質問の難易度、画像ごとに階層化して評価しました。
タイプ、肌の色。
さらに、69 の NEJM 臨床病理学カンファレンス (CPC) に対して医師による GPT-4V の評価を実施しました。
テキストのみ、画像のみ、テキストと画像の両方を使用したモデルについて分析を実行しました。
結果: GPT-4V は全体の精度が 61% (95% CI、58 ~ 64%) であったのに対し、ヒトでは 49% (95% CI、49 ~ 50%) でした。
GPT-4V は、難易度や意見の不一致、肌の色、画像の種類のすべてのレベルで人間を上回りました。
例外は放射線画像であり、GPT-4V と人間の回答者の間でパフォーマンスは同等でした。
より長く、より情報量の多いキャプションは GPT-4V のパフォーマンス向上に関連していましたが、人間の回答者でも同様のパフォーマンスでした。
GPT-4V では、両方の画像を使用した場合の CPC の 58% (95% CI、45 ~ 70%) と比較して、テキストのみを使用した場合の CPC の 80% (95% CI、68 ~ 88%) の鑑別に正しい診断が含まれていました。
そしてテキスト。
結論: GPT-4V は、困難な医療ケースでは人間の回答者よりも優れたパフォーマンスを示し、画像とテキストの両方から情報を合成できましたが、情報量の多いテキストに画像が追加されるとパフォーマンスが低下しました。
全体として、私たちの結果は、マルチモーダル AI モデルが医療診断推論に役立つ可能性があるが、その精度は状況に大きく依存する可能性があることを示唆しています。

要約(オリジナル)

Background: General-purpose large language models that utilize both text and images have not been evaluated on a diverse array of challenging medical cases. Methods: Using 934 cases from the NEJM Image Challenge published between 2005 and 2023, we evaluated the accuracy of the recently released Generative Pre-trained Transformer 4 with Vision model (GPT-4V) compared to human respondents overall and stratified by question difficulty, image type, and skin tone. We further conducted a physician evaluation of GPT-4V on 69 NEJM clinicopathological conferences (CPCs). Analyses were conducted for models utilizing text alone, images alone, and both text and images. Results: GPT-4V achieved an overall accuracy of 61% (95% CI, 58 to 64%) compared to 49% (95% CI, 49 to 50%) for humans. GPT-4V outperformed humans at all levels of difficulty and disagreement, skin tones, and image types; the exception was radiographic images, where performance was equivalent between GPT-4V and human respondents. Longer, more informative captions were associated with improved performance for GPT-4V but similar performance for human respondents. GPT-4V included the correct diagnosis in its differential for 80% (95% CI, 68 to 88%) of CPCs when using text alone, compared to 58% (95% CI, 45 to 70%) of CPCs when using both images and text. Conclusions: GPT-4V outperformed human respondents on challenging medical cases and was able to synthesize information from both images and text, but performance deteriorated when images were added to highly informative text. Overall, our results suggest that multimodal AI models may be useful in medical diagnostic reasoning but that their accuracy may depend heavily on context.

arxiv情報

著者 Thomas Buckley,James A. Diao,Adam Rodman,Arjun K. Manrai
発行日 2023-11-09 18:48:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク