A Comprehensive Study of GPT-4V’s Multimodal Capabilities in Medical Imaging


この文書では、放射線レポートの生成、医用視覚的質問応答 (VQA)、および視覚的グラウンディングを含む、さまざまな医用画像タスクにわたる GPT-4V の機能の包括的な評価を示します。
これまでの取り組みでは医療画像処理における GPT-4V の性能が調査されてきましたが、私たちの知る限り、私たちの研究は公的に利用可能なベンチマークに関する最初の定量的評価となります。
私たちの調査結果は、特によく構造化されたプロンプトに従った場合に、胸部 X 線画像の説明的なレポートを生成する GPT-4V の可能性を強調しています。
ただし、MIMIC-CXR データセット ベンチマークでのパフォーマンスでは、CIDEr などの特定の評価指標に改善の余地があることが明らかになりました。
医療 VQA の分野では、GPT-4V は質問の種類を区別する能力を示していますが、精度の点では一般的なベンチマークには達していません。
さらに、私たちの分析では、BLEU スコアなどの従来の評価指標の限界を発見し、より意味的に堅牢な評価方法の開発を提唱しています。
視覚的グラウンディングの分野では、GPT-4V は境界ボックスの認識において暫定的な有望性を示していますが、特に特定の医療器官や兆候の識別においては精度が不足しています。
私たちの評価は、医療画像分野における GPT-4V の大きな可能性を強調すると同時に、その機能を完全に解放するために的を絞った改良の必要性も強調しています。


This paper presents a comprehensive evaluation of GPT-4V’s capabilities across diverse medical imaging tasks, including Radiology Report Generation, Medical Visual Question Answering (VQA), and Visual Grounding. While prior efforts have explored GPT-4V’s performance in medical imaging, to the best of our knowledge, our study represents the first quantitative evaluation on publicly available benchmarks. Our findings highlight GPT-4V’s potential in generating descriptive reports for chest X-ray images, particularly when guided by well-structured prompts. However, its performance on the MIMIC-CXR dataset benchmark reveals areas for improvement in certain evaluation metrics, such as CIDEr. In the domain of Medical VQA, GPT-4V demonstrates proficiency in distinguishing between question types but falls short of prevailing benchmarks in terms of accuracy. Furthermore, our analysis finds the limitations of conventional evaluation metrics like the BLEU score, advocating for the development of more semantically robust assessment methods. In the field of Visual Grounding, GPT-4V exhibits preliminary promise in recognizing bounding boxes, but its precision is lacking, especially in identifying specific medical organs and signs. Our evaluation underscores the significant potential of GPT-4V in the medical imaging domain, while also emphasizing the need for targeted refinements to fully unlock its capabilities.


著者 Yingshu Li,Yunyi Liu,Zhanyu Wang,Xinyu Liang,Lingqiao Liu,Lei Wang,Leyang Cui,Zhaopeng Tu,Longyue Wang,Luping Zhou
発行日 2023-10-31 11:39:09+00:00
