Masked Image Modelling for retinal OCT understanding

要約

この研究では、網膜 OCT 画像の表現を学習するためのマスクされた画像モデリングの有効性を調査します。
この目的を達成するために、自己教師あり学習のためのシンプルでスケーラブルな方法であるマスクド オートエンコーダー (MAE) を活用し、実際の臨床現場で収集された 41,000 人の患者からの 700,000 枚の OCT 画像でトレーニングすることにより、OCT 画像の強力で一般的な表現を取得します。
また、6 つの下流タスクからなる困難な一連の OCT モデルに対する最初の広範な評価も提供します。
私たちのモデルは、完全に微調整すると強力なパフォーマンスを実現しますが、軽量アダプターを使用する多くのタスクに対して多用途の凍結特徴抽出器としても機能します。
さらに、OCT と補助モダリティ、つまり IR 眼底画像を融合し、両方の統合モデルを学習するための MAE 事前トレーニングの拡張を提案します。
私たちのアプローチがマルチモーダルなダウンストリーム アプリケーションのパフォーマンスを向上させることを実証します。
私たちの実験では、公的に利用可能な OCT データセットのほとんどを利用しているため、将来の比較が可能になります。
コードとモデルの重みは https://github.com/TheoPis/MIM_OCT で公開されています。

要約(オリジナル)

This work explores the effectiveness of masked image modelling for learning representations of retinal OCT images. To this end, we leverage Masked Autoencoders (MAE), a simple and scalable method for self-supervised learning, to obtain a powerful and general representation for OCT images by training on 700K OCT images from 41K patients collected under real world clinical settings. We also provide the first extensive evaluation for a model of OCT on a challenging battery of 6 downstream tasks. Our model achieves strong performance when fully finetuned but can also serve as a versatile frozen feature extractor for many tasks using lightweight adapters. Furthermore, we propose an extension of the MAE pretraining to fuse OCT with an auxiliary modality, namely, IR fundus images and learn a joint model for both. We demonstrate our approach improves performance on a multimodal downstream application. Our experiments utilize most publicly available OCT datasets, thus enabling future comparisons. Our code and model weights are publicly available https://github.com/TheoPis/MIM_OCT.

arxiv情報

著者 Theodoros Pissas,Pablo Márquez-Neila,Sebastian Wolf,Martin Zinkernagel,Raphael Sznitman
発行日 2024-05-23 16:57:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク