LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models

要約

眼科では、診断や治療計画のために詳細な画像解析に大きく依存している。大規模視覚言語モデル(LVLM)は複雑な視覚情報を理解する上で有望であるが、眼科画像におけるその性能はまだ十分に検討されていない。我々は、眼科画像におけるLVLMを評価するためのデータセットとベンチマークであるLMODを紹介し、解剖学的理解、診断分析、人口統計抽出をカバーする。LMODには、光コヒーレンストモグラフィー、走査型レーザー検眼鏡、眼球写真、手術シーン、カラー眼底写真にまたがる21,993枚の画像が含まれる。我々は、13の最新のLVLMをベンチマークし、それらが眼科画像を理解するには完璧には程遠いことを発見した。モデルは診断分析と人口統計抽出に苦戦し、空間推論、診断分析、領域外クエリの処理、眼科画像のバイオマーカーを扱うための安全対策に弱点があることが明らかになった。

要約(オリジナル)

Ophthalmology relies heavily on detailed image analysis for diagnosis and treatment planning. While large vision-language models (LVLMs) have shown promise in understanding complex visual information, their performance on ophthalmology images remains underexplored. We introduce LMOD, a dataset and benchmark for evaluating LVLMs on ophthalmology images, covering anatomical understanding, diagnostic analysis, and demographic extraction. LMODincludes 21,993 images spanning optical coherence tomography, scanning laser ophthalmoscopy, eye photos, surgical scenes, and color fundus photographs. We benchmark 13 state-of-the-art LVLMs and find that they are far from perfect for comprehending ophthalmology images. Models struggle with diagnostic analysis and demographic extraction, reveal weaknesses in spatial reasoning, diagnostic analysis, handling out-of-domain queries, and safeguards for handling biomarkers of ophthalmology images.

arxiv情報

著者 Zhenyue Qin,Yu Yin,Dylan Campbell,Xuansheng Wu,Ke Zou,Yih-Chung Tham,Ninghao Liu,Xiuzhen Zhang,Qingyu Chen
発行日 2024-10-03 02:29:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク