Swin MAE: Masked Autoencoders for Small Datasets

要約

医用画像解析における深層学習モデルの開発は、大規模かつ十分に注釈されたデータセットの不足によって大きく制限されている。教師なし学習はラベルを必要としないため、医用画像解析の問題解決に適している。しかし,現在の教師なし学習の多くは,大規模なデータセットに適用する必要がある.そこで我々は,教師なし学習を小規模なデータセットにも適用できるようにするため, Swin TransformerをバックボーンとしたマスクオートエンコーダであるSwin MAEを提案する.わずか数千枚の医用画像からなるデータセットで、事前に学習したモデルを用いない場合でも、Swin MAEは画像から純粋に有用な意味特徴を学習することが可能である。下流タスクの伝達学習結果において、ImageNetで学習したSwin Transformerによって得られた教師付きモデルと同等か、わずかに上回ることができる。コードはhttps://github.com/Zian-Xu/Swin-MAE で公開されています。

要約(オリジナル)

The development of deep learning models in medical image analysis is majorly limited by the lack of large-sized and well-annotated datasets. Unsupervised learning does not require labels and is more suitable for solving medical image analysis problems. However, most of the current unsupervised learning methods need to be applied to large datasets. To make unsupervised learning applicable to small datasets, we proposed Swin MAE, which is a masked autoencoder with Swin Transformer as its backbone. Even on a dataset of only a few thousand medical images and without using any pre-trained models, Swin MAE is still able to learn useful semantic features purely from images. It can equal or even slightly outperform the supervised model obtained by Swin Transformer trained on ImageNet in terms of the transfer learning results of downstream tasks. The code is publicly available at https://github.com/Zian-Xu/Swin-MAE.

arxiv情報

著者 Zi’an Xu,Yin Dai,Fayu Liu,Weibing Chen,Yue Liu,Lifu Shi,Sheng Liu,Yuhang Zhou
発行日 2023-01-05 10:07:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク