Towards General Purpose Vision Foundation Models for Medical Image Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks

要約

ディープラーニング システムのヘルスケアへの統合は、データ アノテーションのリソースを大量に消費するプロセスと、これらのシステムがさまざまなデータ分布に一般化できないことによって妨げられてきました。
ファウンデーション モデルは、大規模なデータセットで事前トレーニングされたモデルであり、アノテーション付きデータへの依存を減らし、モデルの一般化性と堅牢性を強化するソリューションとして登場しました。
DINOv2 は、1 億 4,200 万枚の厳選された自然画像に対する自己教師あり学習で事前トレーニングされたオープンソースの基盤モデルであり、さまざまな視覚タスクにわたって有望な機能を発揮します。
それにもかかわらず、DINOv2 の放射線画像処理への適応性や、その機能が放射線画像解析に役立つほど一般的であるかどうかに関する重要な疑問は未解決のままです。
したがって、この研究では、放射線医学向けの DINOv2 を包括的に評価し、さまざまなモダリティ (X 線、CT、MRI) にわたって 100 を超える実験を実施しました。
DINOv2 の特徴表現の有効性と一般化可能性を測定するために、2D と 3D 画像の両方で疾患分類や臓器セグメンテーションを含む医用画像解析タスク全体でモデルを分析し、kNN、少数ショット学習、線形プローブ、エンドなどのさまざまな設定の下で分析します。
– エンドツーエンドの微調整とパラメータ効率の高い微調整。
確立された教師付きモデル、自己教師付きモデル、および弱教師付きモデルとの比較分析により、DINOv2 の優れたパフォーマンスとクロスタスクの汎用性が明らかになります。
この発見は、医用画像の事前トレーニング戦略を最適化し、自然画像解析と放射線画像解析の間のギャップを埋めるDINOv2の役割についてのより広範な理解を促進するための潜在的な手段への洞察に貢献します。
私たちのコードは https://github.com/MohammedSB/DINOv2ForRadiology で入手できます。

要約(オリジナル)

The integration of deep learning systems into healthcare has been hindered by the resource-intensive process of data annotation and the inability of these systems to generalize to different data distributions. Foundation models, which are models pre-trained on large datasets, have emerged as a solution to reduce reliance on annotated data and enhance model generalizability and robustness. DINOv2 is an open-source foundation model pre-trained with self-supervised learning on 142 million curated natural images that exhibits promising capabilities across various vision tasks. Nevertheless, a critical question remains unanswered regarding DINOv2’s adaptability to radiological imaging, and whether its features are sufficiently general to benefit radiology image analysis. Therefore, this study comprehensively evaluates DINOv2 for radiology, conducting over 100 experiments across diverse modalities (X-ray, CT, and MRI). To measure the effectiveness and generalizability of DINOv2’s feature representations, we analyze the model across medical image analysis tasks including disease classification and organ segmentation on both 2D and 3D images, and under different settings like kNN, few-shot learning, linear-probing, end-to-end fine-tuning, and parameter-efficient fine-tuning. Comparative analyses with established supervised, self-supervised, and weakly-supervised models reveal DINOv2’s superior performance and cross-task generalizability. The findings contribute insights to potential avenues for optimizing pre-training strategies for medical imaging and enhancing the broader understanding of DINOv2’s role in bridging the gap between natural and radiological image analysis. Our code is available at https://github.com/MohammedSB/DINOv2ForRadiology

arxiv情報

著者 Mohammed Baharoon,Waseem Qureshi,Jiahong Ouyang,Yanwu Xu,Abdulrhman Aljouie,Wei Peng
発行日 2023-12-28 18:36:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク