要約
近年の自己教師付き対比学習は、画像レベルの表現には優れているが、画素レベルの詳細な情報を無視するため、意味分割のような高密度な予測タスクへの転送性能に満足できない。本研究では、CP2(Copy-Paste Contrastive Pretraining)と呼ばれる画素単位の対比学習法を提案する。この方法は、画像レベルと画素レベルの両方の表現学習を容易にするため、下流の高密度予測課題により適している。具体的には、画像からランダムに切り出した画素(前景)を異なる背景画像にコピーペーストし、1)前景画素と背景画素を区別する、2)同じ前景を持つ合成画像を識別する、という目的で意味分割モデルを前教育する。PASCAL VOC 2012においてCP2の学習済みモデルを微調整した結果、ResNet-50で78.6%、ViT-Sで79.5%のmIoUを得ることができました。
要約(オリジナル)
Recent advances in self-supervised contrastive learning yield good image-level representation, which favors classification tasks but usually neglects pixel-level detailed information, leading to unsatisfactory transfer performance to dense prediction tasks such as semantic segmentation. In this work, we propose a pixel-wise contrastive learning method called CP2 (Copy-Paste Contrastive Pretraining), which facilitates both image- and pixel-level representation learning and therefore is more suitable for downstream dense prediction tasks. In detail, we copy-paste a random crop from an image (the foreground) onto different background images and pretrain a semantic segmentation model with the objective of 1) distinguishing the foreground pixels from the background pixels, and 2) identifying the composed images that share the same foreground.Experiments show the strong performance of CP2 in downstream semantic segmentation: By finetuning CP2 pretrained models on PASCAL VOC 2012, we obtain 78.6% mIoU with a ResNet-50 and 79.5% with a ViT-S.
arxiv情報
著者 | Feng Wang,Huiyu Wang,Chen Wei,Alan Yuille,Wei Shen |
発行日 | 2022-08-09 06:27:33+00:00 |
arxivサイト | arxiv_id(pdf) |