Self-Supervised Pretraining for 2D Medical Image Segmentation

要約

教師あり機械学習は、さまざまなコンピューター ビジョンの問題に対する最先端のソリューションを提供します。
ただし、大量のラベル付きトレーニング データが必要なため、そのような入力が不足しているか高価なシナリオでは、これらのアルゴリズムの機能が制限されます。
自己教師あり学習は、ラベル付けされていないデータで特定のドメインのモデルを事前トレーニングすることにより、手動で注釈を付けたデータの必要性を下げる方法を提供します。
このアプローチでは、下流のタスク用にモデルを微調整するためにのみラベル付きデータが必要です。
医用画像のセグメンテーションは、データのラベル付けに専門知識が必要であり、ラベル付けされた大規模なデータセットの収集が困難な分野です。
したがって、自己教師あり学習アルゴリズムは、この分野での大幅な改善を約束します。
それにもかかわらず、自己教師あり学習アルゴリズムが医療画像セグメンテーション ネットワークの事前学習に使用されることはめったにありません。
このホワイトペーパーでは、収束とデータ効率に焦点を当てて、ダウンストリームの医療画像セグメンテーションに対する教師ありおよび自己教師ありの事前トレーニングアプローチの有効性を詳しく分析します。
自然の画像とターゲットドメイン固有の画像に対する自己教師ありの事前トレーニングが、最も高速で最も安定したダウンストリーム収束につながることがわかりました。
ACDC 心臓セグメンテーション データセットに関する私たちの実験では、この事前トレーニング アプローチは、ImageNet 事前トレーニング モデルと比較して 4 ~ 5 倍高速な微調整収束を実現します。
また、このアプローチでは、ダウンストリームの収束時間でこのような改善を達成するために、ドメイン固有のデータの事前トレーニングに 5 エポック未満しか必要ないことも示しています。
最後に、データ量が少ないシナリオでは、教師あり ImageNet 事前トレーニングが最高の精度を達成し、100 未満の注釈付きサンプルでほぼ最小のエラーを実現できることがわかりました。

要約(オリジナル)

Supervised machine learning provides state-of-the-art solutions to a wide range of computer vision problems. However, the need for copious labelled training data limits the capabilities of these algorithms in scenarios where such input is scarce or expensive. Self-supervised learning offers a way to lower the need for manually annotated data by pretraining models for a specific domain on unlabelled data. In this approach, labelled data are solely required to fine-tune models for downstream tasks. Medical image segmentation is a field where labelling data requires expert knowledge and collecting large labelled datasets is challenging; therefore, self-supervised learning algorithms promise substantial improvements in this field. Despite this, self-supervised learning algorithms are used rarely to pretrain medical image segmentation networks. In this paper, we elaborate and analyse the effectiveness of supervised and self-supervised pretraining approaches on downstream medical image segmentation, focusing on convergence and data efficiency. We find that self-supervised pretraining on natural images and target-domain-specific images leads to the fastest and most stable downstream convergence. In our experiments on the ACDC cardiac segmentation dataset, this pretraining approach achieves 4-5 times faster fine-tuning convergence compared to an ImageNet pretrained model. We also show that this approach requires less than five epochs of pretraining on domain-specific data to achieve such improvement in the downstream convergence time. Finally, we find that, in low-data scenarios, supervised ImageNet pretraining achieves the best accuracy, requiring less than 100 annotated samples to realise close to minimal error.

arxiv情報

著者 András Kalapos,Bálint Gyires-Tóth
発行日 2022-09-01 09:25:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク