Dealing with Small Datasets for Deep Learning in Medical Imaging: An Evaluation of Self-Supervised Pre-Training on CT Scans Comparing Contrastive and Masked Autoencoder Methods for Convolutional Models

要約

医療画像におけるディープラーニングは、診断エラーのリスクを最小限に抑え、放射線科医の作業負荷を軽減し、診断を迅速化する可能性があります。
このような深層学習モデルをトレーニングするには、すべてのトレーニング サンプルに注釈が付けられた、大規模で正確なデータセットが必要です。
ただし、医療画像分野では、注釈の複雑さ、アクセスの制限、疾患の希少性などの理由から、特定のタスク用の注釈付きデータセットは小さいことがよくあります。
この課題に対処するために、自己教師あり学習の分野の手法を使用して、アノテーションなしで深層学習モデルを大規模な画像データセットで事前トレーニングできます。
事前トレーニング後、特定のタスクに合わせてモデルを微調整するには、注釈付きの小さなデータセットで十分です。
医療画像処理における最も一般的な自己教師ありの事前トレーニング アプローチは、対照学習に基づいています。
ただし、自然画像処理に関する最近の研究では、マスクされたオートエンコーダ アプローチの強力な可能性が示されています。
私たちの研究では、最先端の対照学習手法と、医療画像上の畳み込みニューラル ネットワーク (CNN) 向けに最近導入されたマスク オートエンコーダ アプローチ「SparK」を比較しています。
したがって、大規模な注釈のない CT 画像データセットで事前トレーニングし、いくつかの CT 分類タスクで微調整します。
医用画像処理では十分な注釈付きトレーニング データを取得することが難しいため、小さなデータセットを微調整する際に自己教師あり事前トレーニング方法がどのように機能するかを評価することが特に重要です。
微調整のためにトレーニング データセットのサイズを徐々に縮小する実験を行ったところ、選択した事前トレーニングの種類に応じて縮小の効果が異なることがわかりました。
SparK 事前トレーニング方法は、対照的な方法よりもトレーニング データセットのサイズに対して堅牢です。
私たちの結果に基づいて、小さな注釈付きデータセットのみを使用した医療画像タスク用の SparK 事前トレーニングを提案します。

要約(オリジナル)

Deep learning in medical imaging has the potential to minimize the risk of diagnostic errors, reduce radiologist workload, and accelerate diagnosis. Training such deep learning models requires large and accurate datasets, with annotations for all training samples. However, in the medical imaging domain, annotated datasets for specific tasks are often small due to the high complexity of annotations, limited access, or the rarity of diseases. To address this challenge, deep learning models can be pre-trained on large image datasets without annotations using methods from the field of self-supervised learning. After pre-training, small annotated datasets are sufficient to fine-tune the models for a specific task. The most popular self-supervised pre-training approaches in medical imaging are based on contrastive learning. However, recent studies in natural image processing indicate a strong potential for masked autoencoder approaches. Our work compares state-of-the-art contrastive learning methods with the recently introduced masked autoencoder approach ‘SparK’ for convolutional neural networks (CNNs) on medical images. Therefore we pre-train on a large unannotated CT image dataset and fine-tune on several CT classification tasks. Due to the challenge of obtaining sufficient annotated training data in medical imaging, it is of particular interest to evaluate how the self-supervised pre-training methods perform when fine-tuning on small datasets. By experimenting with gradually reducing the training dataset size for fine-tuning, we find that the reduction has different effects depending on the type of pre-training chosen. The SparK pre-training method is more robust to the training dataset size than the contrastive methods. Based on our results, we propose the SparK pre-training for medical imaging tasks with only small annotated datasets.

arxiv情報

著者 Daniel Wolf,Tristan Payer,Catharina Silvia Lisson,Christoph Gerhard Lisson,Meinrad Beer,Timo Ropinski,Michael Götz
発行日 2023-08-24 12:26:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク