LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models

要約

眼科では、診断と治療計画のために詳細な画像分析に大きく依存しています。
大規模視覚言語モデル (LVLM) は、複雑な視覚情報の理解において有望であることが示されていますが、眼科画像に対するそのパフォーマンスはまだ解明されていません。
解剖学的理解、診断分析、人口統計抽出をカバーする、眼科画像上の LVLM を評価するためのデータセットおよびベンチマークである LMOD を紹介します。
LMOD には、光干渉断層撮影法、走査型レーザー検眼鏡、目の写真、手術風景、カラー眼底写真にわたる 21,993 枚の画像が含まれています。
私たちは 13 個の最先端の LVLM をベンチマークしましたが、それらは眼科画像を理解するのに完璧とは程遠いことがわかりました。
モデルは診断分析と人口統計抽出に苦戦しており、空間推論、診断分析、ドメイン外クエリの処理、眼科画像のバイオマーカーを処理するための安全策における弱点を明らかにしています。

要約(オリジナル)

Ophthalmology relies heavily on detailed image analysis for diagnosis and treatment planning. While large vision-language models (LVLMs) have shown promise in understanding complex visual information, their performance on ophthalmology images remains underexplored. We introduce LMOD, a dataset and benchmark for evaluating LVLMs on ophthalmology images, covering anatomical understanding, diagnostic analysis, and demographic extraction. LMODincludes 21,993 images spanning optical coherence tomography, scanning laser ophthalmoscopy, eye photos, surgical scenes, and color fundus photographs. We benchmark 13 state-of-the-art LVLMs and find that they are far from perfect for comprehending ophthalmology images. Models struggle with diagnostic analysis and demographic extraction, reveal weaknesses in spatial reasoning, diagnostic analysis, handling out-of-domain queries, and safeguards for handling biomarkers of ophthalmology images.

arxiv情報

著者 Zhenyue Qin,Yu Yin,Dylan Campbell,Xuansheng Wu,Ke Zou,Yih-Chung Tham,Ninghao Liu,Xiuzhen Zhang,Qingyu Chen
発行日 2024-10-02 14:57:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク