A Novel Ophthalmic Benchmark for Evaluating Multimodal Large Language Models with Fundus Photographs and OCT Images

要約

近年、大規模な言語モデル(LLM)は、さまざまな医療用途全体で顕著な可能性を示しています。
この基盤の上に構築されたマルチモーダル大手言語モデル(MLLMS)は、LLMを視覚モデルと統合して、臨床データや医療画像を含む多様な入力を処理します。
眼科では、LLMSが光学コヒーレンス断層撮影(OCT)のレポートを分析し、疾患の分類を支援し、さらには治療結果を予測するために調査されています。
ただし、既存のMLLMベンチマークは、特にOCT画像の分析において、実際の臨床診療の複雑さをキャプチャできないことがよくあります。
多くの人は、サンプルサイズが小さい、多様なOCTデータセットの欠如、専門家の検証が不十分なような制限に苦しんでいます。
これらの欠点は、OCTスキャンを解釈するMLLMの能力と眼科におけるより広い適用性の正確な評価を妨げます。
厳密な品質管理と専門家の注釈を通じてキュレーションされたデータセットは、439の眼底画像と75 OCT画像で構成されています。
標準化されたAPIベースのフレームワークを使用して、7つの主流MLLMSを評価し、異なる疾患にわたる診断精度の有意な変動性を観察しました。
一部のモデルは、糖尿病性網膜症や加齢性黄斑変性などの状態の診断でうまく機能しましたが、脈絡膜血管新生や近視などの他のモデルと闘い、パフォーマンスの矛盾とさらなる改良の必要性を強調しました。
私たちの調査結果は、MLLMの機能をより正確に評価するために、臨床的に関連するベンチマークを開発することの重要性を強調しています。
これらのモデルを改良し、範囲を拡大することにより、眼科の診断と治療を変換する可能性を高めることができます。

要約(オリジナル)

In recent years, large language models (LLMs) have demonstrated remarkable potential across various medical applications. Building on this foundation, multimodal large language models (MLLMs) integrate LLMs with visual models to process diverse inputs, including clinical data and medical images. In ophthalmology, LLMs have been explored for analyzing optical coherence tomography (OCT) reports, assisting in disease classification, and even predicting treatment outcomes. However, existing MLLM benchmarks often fail to capture the complexities of real-world clinical practice, particularly in the analysis of OCT images. Many suffer from limitations such as small sample sizes, a lack of diverse OCT datasets, and insufficient expert validation. These shortcomings hinder the accurate assessment of MLLMs’ ability to interpret OCT scans and their broader applicability in ophthalmology. Our dataset, curated through rigorous quality control and expert annotation, consists of 439 fundus images and 75 OCT images. Using a standardized API-based framework, we assessed seven mainstream MLLMs and observed significant variability in diagnostic accuracy across different diseases. While some models performed well in diagnosing conditions such as diabetic retinopathy and age-related macular degeneration, they struggled with others, including choroidal neovascularization and myopia, highlighting inconsistencies in performance and the need for further refinement. Our findings emphasize the importance of developing clinically relevant benchmarks to provide a more accurate assessment of MLLMs’ capabilities. By refining these models and expanding their scope, we can enhance their potential to transform ophthalmic diagnosis and treatment.

arxiv情報

著者 Xiaoyi Liang,Mouxiao Bian,Moxin Chen,Lihao Liu,Junjun He,Jie Xu,Lin Li
発行日 2025-03-10 09:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク