要約
医療大規模な視覚言語モデル(MED-LVLMS)は、ヘルスケアの重要な可能性を示していますが、一般的な医療データと粗視のグローバルな視覚的理解に依存することで、インテリジェントな眼科診断においてそれらが制限されます。
現在、インテリジェントな眼科診断は3つの主要な課題に直面しています:(i)データ。
深く注釈付き、高品質の、マルチモーダル眼科視覚命令データの欠如。
(ii)ベンチマーク。
診断パフォーマンスを評価するための包括的で体系的なベンチマークがないこと。
(iii)モデル。
全体的な視覚的アーキテクチャを細かく粒度固有の眼科病変の識別に適応させることの難しさ。
この論文では、テーラードデータセット、ベンチマーク、モデルを使用して、前述の3つの重要な課題に体系的に取り組むアイケアキットを提案します。まず、現実の眼科データを備えたマルチエージェントデータエンジンを構築して、高品質の嗅覚視覚データであるEyeCare-100Kを生成します。
その後、アイケアベンチを設計します。アイケアベンチは、複数の次元にわたるインテリジェントな眼科診断タスクでのLVLMSの全体的なパフォーマンスを包括的に評価するベンチマークです。
最後に、適応解像度のメカニズムと層ごとの密なコネクタを組み込んだ細い眼科の視覚的理解のために最適化されたEyeCareGPTを開発します。
広範な実験結果は、アイカレグプトがさまざまな眼科タスクで最先端のパフォーマンスを達成し、インテリジェントな眼科診断におけるオープン研究の進歩の重要な可能性を強調していることを示しています。
当社のプロジェクトは、https://github.com/dcdmllm/eyecaregptで入手できます。
要約(オリジナル)
Medical Large Vision-Language Models (Med-LVLMs) demonstrate significant potential in healthcare, but their reliance on general medical data and coarse-grained global visual understanding limits them in intelligent ophthalmic diagnosis. Currently, intelligent ophthalmic diagnosis faces three major challenges: (i) Data. The lack of deeply annotated, high-quality, multi-modal ophthalmic visual instruction data; (ii) Benchmark. The absence of a comprehensive and systematic benchmark for evaluating diagnostic performance; (iii) Model. The difficulty of adapting holistic visual architectures to fine-grained, region-specific ophthalmic lesion identification. In this paper, we propose the Eyecare Kit, which systematically tackles the aforementioned three key challenges with the tailored dataset, benchmark and model: First, we construct a multi-agent data engine with real-life ophthalmology data to produce Eyecare-100K, a high-quality ophthalmic visual instruction dataset. Subsequently, we design Eyecare-Bench, a benchmark that comprehensively evaluates the overall performance of LVLMs on intelligent ophthalmic diagnosis tasks across multiple dimensions. Finally, we develop the EyecareGPT, optimized for fine-grained ophthalmic visual understanding thoroughly, which incorporates an adaptive resolution mechanism and a layer-wise dense connector. Extensive experimental results indicate that the EyecareGPT achieves state-of-the-art performance in a range of ophthalmic tasks, underscoring its significant potential for the advancement of open research in intelligent ophthalmic diagnosis. Our project is available at https://github.com/DCDmllm/EyecareGPT.
arxiv情報
著者 | Sijing Li,Tianwei Lin,Lingshuai Lin,Wenqiao Zhang,Jiang Liu,Xiaoda Yang,Juncheng Li,Yucheng He,Xiaohui Song,Jun Xiao,Yueting Zhuang,Beng Chin Ooi |
発行日 | 2025-04-18 12:09:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google