要約
Vision-Language Foundation モデルは、コンピュータ ビジョンや自然言語処理の分野でますます研究されていますが、眼科やより広範な医療応用におけるその研究は依然として限定的です。
課題は、基礎モデルのトレーニング用のラベル付きデータが不足していることです。
この問題に対処するために、本論文では CLIP スタイルの網膜画像基盤モデルを開発しました。
当社の基礎モデルである RET-CLIP は、カラー眼底写真 (CFP) の一般的な特徴を抽出するために 193,865 人の患者のデータセットで特別にトレーニングされており、左目、右目、および患者レベルに焦点を当てて実際の眼底レベルを反映する三者最適化戦略を採用しています。
世界の臨床シナリオ。
広範な実験により、RET-CLIP が、糖尿病性網膜症、緑内障、複数の疾患の診断、および複数の疾患のマルチラベル分類という 4 つの重要な診断カテゴリにわたる 8 つの多様なデータセットにわたって既存のベンチマークを上回るパフォーマンスを示していることが実証されており、これらは当社の基礎モデルのパフォーマンスと一般性を示しています。
ソース コードと事前トレーニングされたモデルは、https://github.com/sStonemason/RET-CLIP で入手できます。
要約(オリジナル)
The Vision-Language Foundation model is increasingly investigated in the fields of computer vision and natural language processing, yet its exploration in ophthalmology and broader medical applications remains limited. The challenge is the lack of labeled data for the training of foundation model. To handle this issue, a CLIP-style retinal image foundation model is developed in this paper. Our foundation model, RET-CLIP, is specifically trained on a dataset of 193,865 patients to extract general features of color fundus photographs (CFPs), employing a tripartite optimization strategy to focus on left eye, right eye, and patient level to reflect real-world clinical scenarios. Extensive experiments demonstrate that RET-CLIP outperforms existing benchmarks across eight diverse datasets spanning four critical diagnostic categories: diabetic retinopathy, glaucoma, multiple disease diagnosis, and multi-label classification of multiple diseases, which demonstrate the performance and generality of our foundation model. The sourse code and pre-trained model are available at https://github.com/sStonemason/RET-CLIP.
arxiv情報
著者 | Jiawei Du,Jia Guo,Weihang Zhang,Shengzhu Yang,Hanruo Liu,Huiqi Li,Ningli Wang |
発行日 | 2024-08-19 12:40:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google