Beyond the Hype: A dispassionate look at vision-language models in medical scenario

要約

大規模な視覚言語モデル(LVLMS)の最近の進歩は、多様なタスク全体で顕著な能力を実証しており、AIコミュニティで大きな注目を集めています。
ただし、医学などの特殊なドメインにおけるパフォーマンスと信頼性は不十分なままです。
特に、ほとんどの評価は、LVLMSの詳細な特性を無視しながら、マルチモダリティデータの単純な視覚的質問(VQA)に基づいてVLMSの評価で過度に集中しています。
この研究では、既存のLVLMを包括的に評価するために、新しい放射線学的な視覚的理解と質問に答えるベンチマークであるRadvuqaを紹介します。
Radvuqaは、主に5つの次元にわたってLVLMを検証します。1)解剖学的理解、生物学的構造を視覚的に識別するモデルの能力を評価します。
2)マルチモーダルの理解。これには、希望する結果を生み出すための言語的および視覚的指示を解釈する能力が含まれます。
3)定量的および空間的推論は、モデルの空間的認識と視覚的および言語情報を組み合わせる際の習熟度を評価します。
4)生理学的知識、臓器とシステムの機能とメカニズムを理解するモデルの能力を測定する。
5)堅牢性。これは、非整合および合成データに対するモデルの能力を評価します。
結果は、一般化されたLVLMSと医療固有のLVLMの両方が、マルチモーダルの理解と定量的推論能力を備えた重大な欠陥があることを示しています。
私たちの調査結果は、既存のLVLMと臨床医の間の大きなギャップを明らかにし、より堅牢でインテリジェントなLVLMの緊急の必要性を強調しています。
このコードは、https://github.com/nandayang/radvuqaで入手できます

要約(オリジナル)

Recent advancements in Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities across diverse tasks, garnering significant attention in AI communities. However, their performance and reliability in specialized domains such as medicine remain insufficiently assessed. In particular, most assessments over-concentrate on evaluating VLMs based on simple Visual Question Answering (VQA) on multi-modality data, while ignoring the in-depth characteristics of LVLMs. In this study, we introduce RadVUQA, a novel Radiological Visual Understanding and Question Answering benchmark, to comprehensively evaluate existing LVLMs. RadVUQA mainly validates LVLMs across five dimensions: 1) Anatomical understanding, assessing the models’ ability to visually identify biological structures; 2) Multimodal comprehension, which involves the capability of interpreting linguistic and visual instructions to produce desired outcomes; 3) Quantitative and spatial reasoning, evaluating the models’ spatial awareness and proficiency in combining quantitative analysis with visual and linguistic information; 4) Physiological knowledge, measuring the models’ capability to comprehend functions and mechanisms of organs and systems; and 5) Robustness, which assesses the models’ capabilities against unharmonized and synthetic data. The results indicate that both generalized LVLMs and medical-specific LVLMs have critical deficiencies with weak multimodal comprehension and quantitative reasoning capabilities. Our findings reveal the large gap between existing LVLMs and clinicians, highlighting the urgent need for more robust and intelligent LVLMs. The code is available at https://github.com/Nandayang/RadVUQA

arxiv情報

著者 Yang Nan,Huichi Zhou,Xiaodan Xing,Guang Yang
発行日 2025-04-09 17:42:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク