EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis

要約

緑内障、黄斑変性症、糖尿病性網膜症などの眼疾患を早期に発見することは、視力低下を防ぐために非常に重要です。
人工知能 (AI) 基礎モデルはこれらの課題に対処する上で大きな期待を持っていますが、既存の眼科基礎モデルは主に単一のモダリティに焦点を当てているのに対し、眼疾患の診断には複数のモダリティが必要です。
重要だが見落とされがちな側面は、同じ患者に対してさまざまなモダリティにわたってマルチビュー情報を活用することです。
さらに、眼科疾患のロングテールの性質により、標準的な完全教師あり学習アプローチまたは教師なし学習アプローチでは困難が生じることがよくあります。
したがって、より広範囲の疾患を把握するには、臨床テキストを統合することが不可欠です。
私たちは、部分テキストデータを含む 277 万枚以上のマルチモーダル眼科画像を使用して開発された視覚言語基盤モデル EyeCLIP を提案します。
大規模なマルチモーダルのラベルなしおよびラベル付きデータを最大限に活用するために、自己教師あり再構成、マルチモーダル画像対比学習、および画像とテキスト対比学習を組み合わせて、複数のモダリティの共有表現を学習する事前トレーニング戦略を導入しました。
14 のベンチマーク データセットを使用した評価を通じて、EyeCLIP は眼疾患および全身疾患を含む幅広い下流タスクに転送でき、疾患分類、視覚的質問応答、およびクロスモーダル検索において最先端のパフォーマンスを実現します。
EyeCLIP は、以前の方法に比べて大幅な進歩を示しており、特に現実世界のロングテール シナリオにおける少数ショット、さらにはゼロショットの機能を示しています。

要約(オリジナル)

Early detection of eye diseases like glaucoma, macular degeneration, and diabetic retinopathy is crucial for preventing vision loss. While artificial intelligence (AI) foundation models hold significant promise for addressing these challenges, existing ophthalmic foundation models primarily focus on a single modality, whereas diagnosing eye diseases requires multiple modalities. A critical yet often overlooked aspect is harnessing the multi-view information across various modalities for the same patient. Additionally, due to the long-tail nature of ophthalmic diseases, standard fully supervised or unsupervised learning approaches often struggle. Therefore, it is essential to integrate clinical text to capture a broader spectrum of diseases. We propose EyeCLIP, a visual-language foundation model developed using over 2.77 million multi-modal ophthalmology images with partial text data. To fully leverage the large multi-modal unlabeled and labeled data, we introduced a pretraining strategy that combines self-supervised reconstructions, multi-modal image contrastive learning, and image-text contrastive learning to learn a shared representation of multiple modalities. Through evaluation using 14 benchmark datasets, EyeCLIP can be transferred to a wide range of downstream tasks involving ocular and systemic diseases, achieving state-of-the-art performance in disease classification, visual question answering, and cross-modal retrieval. EyeCLIP represents a significant advancement over previous methods, especially showcasing few-shot, even zero-shot capabilities in real-world long-tail scenarios.

arxiv情報

著者 Danli Shi,Weiyi Zhang,Jiancheng Yang,Siyu Huang,Xiaolan Chen,Mayinuer Yusufu,Kai Jin,Shan Lin,Shunming Liu,Qing Zhang,Mingguang He
発行日 2024-09-10 17:00:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク