要約
ImageNet が事前トレーニングの万能薬として扱われていることは公然の秘密です。
特に医療機械学習では、最初からトレーニングされていないモデルは、ImageNet で事前トレーニングされたモデルに基づいて微調整されることがよくあります。
代わりに、下流タスクのドメインからのデータに対する事前トレーニングがほとんどの場合優先されるべきであると仮定します。
私たちは、1,200 万枚を超えるコンピューター断層撮影 (CT) 画像スライスを含むデータセットである RadNet-12M を活用して、医療画像および自然画像に対する自己教師あり事前トレーニングの有効性を調査します。
私たちの実験では、ドメイン内およびクロスドメインの転送シナリオ、さまざまなデータ スケール、微調整と線形評価、および特徴空間分析をカバーしています。
ドメイン内転送はクロスドメイン転送と比較して良好であり、同等または向上したパフォーマンス (実験に応じて、RadNet 事前トレーニングを使用すると 0.44% ~ 2.07% のパフォーマンス向上) を達成していることが観察され、ドメイン境界に関連する一般化ギャップの存在と、
ドメイン固有の学習された特徴。
要約(オリジナル)
It is an open secret that ImageNet is treated as the panacea of pretraining. Particularly in medical machine learning, models not trained from scratch are often finetuned based on ImageNet-pretrained models. We posit that pretraining on data from the domain of the downstream task should almost always be preferred instead. We leverage RadNet-12M, a dataset containing more than 12 million computed tomography (CT) image slices, to explore the efficacy of self-supervised pretraining on medical and natural images. Our experiments cover intra- and cross-domain transfer scenarios, varying data scales, finetuning vs. linear evaluation, and feature space analysis. We observe that intra-domain transfer compares favorably to cross-domain transfer, achieving comparable or improved performance (0.44% – 2.07% performance increase using RadNet pretraining, depending on the experiment) and demonstrate the existence of a domain boundary-related generalization gap and domain-specific learned features.
arxiv情報
著者 | Frederic Jonske,Moon Kim,Enrico Nasca,Janis Evers,Johannes Haubold,René Hosch,Felix Nensa,Michael Kamp,Constantin Seibold,Jan Egger,Jens Kleesiek |
発行日 | 2023-06-30 11:15:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google