OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM

要約

Large Vision-Language Model (LVLM) は、さまざまなマルチモーダル タスクにおいて優れた機能を実証しています。
しかし、医療分野におけるその可能性はほとんど解明されていないままです。
現実世界の医療用途に不可欠な、さまざまなモダリティや解剖学的領域にわたる多様な医療画像が不足していることから、重大な課題が生じています。
この問題を解決するために、このホワイト ペーパーでは、新しい包括的な医療視覚質問応答 (VQA) ベンチマークである OmniMedVQA を紹介します。
このベンチマークは、12 の異なるモダリティを含む 75 の異なる医療データセットから収集され、20 以上の異なる解剖学的領域をカバーしています。
重要なのは、このベンチマークのすべての画像は本物の医療シナリオから取得されており、医療分野の要件との整合性と LVLM の評価への適合性が保証されていることです。
私たちの広範な実験を通じて、既存の LVLM はこれらの医療 VQA の問題に効果的に対処するのに苦労していることがわかりました。
さらに、私たちを驚かせるのは、医療に特化した LVLM は一般領域のモデルよりも性能が劣ることでさえあり、生物医学分野ではより多用途で堅牢な LVLM が求められています。
評価結果は、実際の医療画像を理解する際の LVLM の現在の限界を明らかにするだけでなく、データセットの重要性も強調します。
私たちのデータセットは一般公開されます。

要約(オリジナル)

Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities in various multimodal tasks. However, their potential in the medical domain remains largely unexplored. A significant challenge arises from the scarcity of diverse medical images spanning various modalities and anatomical regions, which is essential in real-world medical applications. To solve this problem, in this paper, we introduce OmniMedVQA, a novel comprehensive medical Visual Question Answering (VQA) benchmark. This benchmark is collected from 75 different medical datasets, including 12 different modalities and covering more than 20 distinct anatomical regions. Importantly, all images in this benchmark are sourced from authentic medical scenarios, ensuring alignment with the requirements of the medical field and suitability for evaluating LVLMs. Through our extensive experiments, we have found that existing LVLMs struggle to address these medical VQA problems effectively. Moreover, what surprises us is that medical-specialized LVLMs even exhibit inferior performance to those general-domain models, calling for a more versatile and robust LVLM in the biomedical field. The evaluation results not only reveal the current limitations of LVLM in understanding real medical images but also highlight our dataset’s significance. Our dataset will be made publicly available.

arxiv情報

著者 Yutao Hu,Tianbin Li,Quanfeng Lu,Wenqi Shao,Junjun He,Yu Qiao,Ping Luo
発行日 2024-02-14 13:51:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク