LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models

要約

視力を脅かす眼疾患の有病率は重大な世界的な負担であり、多くの場合、診断されていないか、効果的な治療には遅すぎると診断されています。
大規模な視覚言語モデル(LVLMS)は、解剖学的情報の理解、眼疾患の診断、解釈と追跡計画の起草を支援する可能性があり、それにより臨床医への負担を軽減し、眼科ケアへのアクセスを改善します。
ただし、眼科固有のアプリケーションでのLVLMSのパフォーマンスを評価するために、限られたベンチマークを利用できます。
この研究では、(1)5つの眼科イメージングモダリティ全体で21,993のインスタンスで構成される大規模なマルチモーダル眼科ベンチマークであるLMODを紹介します。光コヒーレンス断層撮影、色の眼底写真、スキャンレーザー眼鏡写真、レンズの写真、および手術シーン。
(2)フリーテキスト、人口統計学、および疾患のバイオマーカー情報。
(3)解剖学的情報理解、疾患診断、サブグループ分析などの主要な眼科固有のアプリケーション。
さらに、クローズドソース、オープンソース、および医療ドメインの13人の最先端のLVLM代表者にベンチマークしました。
結果は、他のドメインと比較して、眼科におけるLVLMSの大幅なパフォーマンス低下を示しています。
系統的エラー分析により、6つの主要な障害モードがさらに特定されました。誤分類、棄権の失敗、一貫性のない推論、幻覚、正当化のない主張、およびドメイン固有の知識の欠如。
対照的に、ベースラインが高精度を実証したため、これらのタスクで特別に訓練された監視されたニューラルネットワークが特別にトレーニングされました。
これらの調査結果は、眼科固有のLVLMの開発と検証におけるベンチマークの差し迫った必要性を強調しています。

要約(オリジナル)

The prevalence of vision-threatening eye diseases is a significant global burden, with many cases remaining undiagnosed or diagnosed too late for effective treatment. Large vision-language models (LVLMs) have the potential to assist in understanding anatomical information, diagnosing eye diseases, and drafting interpretations and follow-up plans, thereby reducing the burden on clinicians and improving access to eye care. However, limited benchmarks are available to assess LVLMs’ performance in ophthalmology-specific applications. In this study, we introduce LMOD, a large-scale multimodal ophthalmology benchmark consisting of 21,993 instances across (1) five ophthalmic imaging modalities: optical coherence tomography, color fundus photographs, scanning laser ophthalmoscopy, lens photographs, and surgical scenes; (2) free-text, demographic, and disease biomarker information; and (3) primary ophthalmology-specific applications such as anatomical information understanding, disease diagnosis, and subgroup analysis. In addition, we benchmarked 13 state-of-the-art LVLM representatives from closed-source, open-source, and medical domains. The results demonstrate a significant performance drop for LVLMs in ophthalmology compared to other domains. Systematic error analysis further identified six major failure modes: misclassification, failure to abstain, inconsistent reasoning, hallucination, assertions without justification, and lack of domain-specific knowledge. In contrast, supervised neural networks specifically trained on these tasks as baselines demonstrated high accuracy. These findings underscore the pressing need for benchmarks in the development and validation of ophthalmology-specific LVLMs.

arxiv情報

著者 Zhenyue Qin,Yu Yin,Dylan Campbell,Xuansheng Wu,Ke Zou,Yih-Chung Tham,Ninghao Liu,Xiuzhen Zhang,Qingyu Chen
発行日 2025-02-05 18:36:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク