Benchmarking Ophthalmology Foundation Models for Clinically Significant Age Macular Degeneration Detection

要約

自己学習学習(SSL)により、ビジョントランス(VITS)が大規模な自然画像データセットから堅牢な表現を学習し、ドメイン全体で一般化を強化しました。
網膜イメージングでは、自然または眼科データのいずれかで前処理された基礎モデルが有望であることが示されていますが、ドメイン内の前orainingの利点は不確実なままです。
これを調査するために、中程度から下位の年齢に関連した黄斑変性(AMD)識別のタスクのために、合計70,000の専門家解決画像の70,000個のデジタル眼底画像(DFI)データセットに6つのSSL定められたVITSをベンチマークします。
我々の結果は、自然画像で前処理されたIBOTは、0.80-0.97のAurocsがドメイン固有のモデルを上回る最高の分散式の一般化を達成することを示しています。
これらの調査結果は、AMDの識別を改善する際の基礎モデルの価値を強調し、ドメイン内の前orainingが必要であるという仮定に挑戦します。
さらに、ブラジルのAMDラベルを備えたDFIのオープンアクセスデータセット(n = 587)であるBramdをリリースします。

要約(オリジナル)

Self-supervised learning (SSL) has enabled Vision Transformers (ViTs) to learn robust representations from large-scale natural image datasets, enhancing their generalization across domains. In retinal imaging, foundation models pretrained on either natural or ophthalmic data have shown promise, but the benefits of in-domain pretraining remain uncertain. To investigate this, we benchmark six SSL-pretrained ViTs on seven digital fundus image (DFI) datasets totaling 70,000 expert-annotated images for the task of moderate-to-late age-related macular degeneration (AMD) identification. Our results show that iBOT pretrained on natural images achieves the highest out-of-distribution generalization, with AUROCs of 0.80-0.97, outperforming domain-specific models, which achieved AUROCs of 0.78-0.96 and a baseline ViT-L with no pretraining, which achieved AUROCs of 0.68-0.91. These findings highlight the value of foundation models in improving AMD identification and challenge the assumption that in-domain pretraining is necessary. Furthermore, we release BRAMD, an open-access dataset (n=587) of DFIs with AMD labels from Brazil.

arxiv情報

著者 Benjamin A. Cohen,Jonathan Fhima,Meishar Meisel,Baskin Meital,Luis Filipe Nakayama,Eran Berkowitz,Joachim A. Behar
発行日 2025-05-08 14:31:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV, q-bio.TO パーマリンク