Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for Multimodal Medical Diagnosis


人工知能の開発は、大規模な基礎モデルに牽引され、近年目覚しい発展を遂げており、一般からの関心も高まっている。本研究では、OpenAIの最新モデルGPT-4V(ision)のマルチモーダル医療診断領域における性能を評価することを目的とする。評価対象は、中枢神経系、頭頸部、心臓、胸部、血液、肝胆膵、消化器、泌尿生殖器、婦人科、産科、乳腺、筋骨格系、脊椎、血管、腫瘍、外傷、小児科を含む17の人体システムで、日常診療で使用される8つのモダリティから撮影された画像を使用しています、例えば、X線、コンピュータ断層撮影(CT)、磁気共鳴画像法(MRI)、陽電子放射断層撮影(PET)、デジタル減算血管撮影(DSA)、マンモグラフィ、超音波、病理検査などです。GPT-4Vは、特許履歴の有無にかかわらず、画像モダリティと解剖学的構造の認識、疾患診断、レポート作成、疾患位置特定を含む複数の臨床タスクで能力を発揮します。 その結果、GPT-4Vは、医用画像のモダリティと解剖学的構造の識別には優れているものの、疾患の診断と包括的なレポートの作成には大きな課題を抱えていることがわかった。これらの知見は、大規模なマルチモーダルモデルがコンピュータビジョンと自然言語処理において大きな進歩を遂げた一方で、実世界の医療アプリケーションと臨床的意思決定を効果的にサポートするために使用されるにはまだ程遠いことを強調している。 本レポートで使用した画像はすべて。


Driven by the large foundation models, the development of artificial intelligence has witnessed tremendous progress lately, leading to a surge of general interest from the public. In this study, we aim to assess the performance of OpenAI’s newest model, GPT-4V(ision), specifically in the realm of multimodal medical diagnosis. Our evaluation encompasses 17 human body systems, including Central Nervous System, Head and Neck, Cardiac, Chest, Hematology, Hepatobiliary, Gastrointestinal, Urogenital, Gynecology, Obstetrics, Breast, Musculoskeletal, Spine, Vascular, Oncology, Trauma, Pediatrics, with images taken from 8 modalities used in daily clinic routine, e.g., X-ray, Computed Tomography (CT), Magnetic Resonance Imaging (MRI), Positron Emission Tomography (PET), Digital Subtraction Angiography (DSA), Mammography, Ultrasound, and Pathology. We probe the GPT-4V’s ability on multiple clinical tasks with or without patent history provided, including imaging modality and anatomy recognition, disease diagnosis, report generation, disease localisation. Our observation shows that, while GPT-4V demonstrates proficiency in distinguishing between medical image modalities and anatomy, it faces significant challenges in disease diagnosis and generating comprehensive reports. These findings underscore that while large multimodal models have made significant advancements in computer vision and natural language processing, it remains far from being used to effectively support real-world medical applications and clinical decision-making. All images used in this report can be found in


著者 Chaoyi Wu,Jiayu Lei,Qiaoyu Zheng,Weike Zhao,Weixiong Lin,Xiaoman Zhang,Xiao Zhou,Ziheng Zhao,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2023-12-04 14:13:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク