MimCo: Masked Image Modeling Pre-training with Contrastive Teacher

要約

近年,自己教師付き学習(SSL)において,入力画像のマスク部分を目標モデルに復元させるマスク画像モデリング(MIM)が注目されている.MIMに基づく事前学習法は、多くの下流タスクに移植することで最先端の性能を達成するが、特に対照学習に基づく事前学習と比較して、学習された表現が分離しにくいことが可視化によって示される。このことから、MIMの線形分離性をさらに向上させ、事前学習性能を向上させることができないかと考えた。MIMとコントラスト学習は、異なるデータ補強や学習戦略を用いる傾向があるため、これら2つの事前学習課題を組み合わせることは容易ではない。本研究では、MimCoと名付けた新規かつ柔軟な事前学習フレームワークを提案し、2段階の事前学習を通じてMIMとコントラスト学習を組み合わせる。具体的には、MimCoは事前に学習されたコントラスト学習モデルを教師モデルとし、パッチレベルと画像レベルの再構成損失の2種類の学習対象で事前学習を行う。 MimCoは、下流タスクに対する広範な移植実験により、MimCoの事前学習フレームワークの優れた性能を実証している。ViT-Sを例にとると、MoCov3-ViT-Sを教師モデルとして事前学習した場合、MimCoは100エポックのみの事前学習で、Imagenet-1Kにおいてトップ1の微調整精度を達成し、最先端の自己教師あり学習と比較して高い精度を実現する。

要約(オリジナル)

Recent masked image modeling (MIM) has received much attention in self-supervised learning (SSL), which requires the target model to recover the masked part of the input image. Although MIM-based pre-training methods achieve new state-of-the-art performance when transferred to many downstream tasks, the visualizations show that the learned representations are less separable, especially compared to those based on contrastive learning pre-training. This inspires us to think whether the linear separability of MIM pre-trained representation can be further improved, thereby improving the pre-training performance. Since MIM and contrastive learning tend to utilize different data augmentations and training strategies, combining these two pretext tasks is not trivial. In this work, we propose a novel and flexible pre-training framework, named MimCo, which combines MIM and contrastive learning through two-stage pre-training. Specifically, MimCo takes a pre-trained contrastive learning model as the teacher model and is pre-trained with two types of learning targets: patch-level and image-level reconstruction losses. Extensive transfer experiments on downstream tasks demonstrate the superior performance of our MimCo pre-training framework. Taking ViT-S as an example, when using the pre-trained MoCov3-ViT-S as the teacher model, MimCo only needs 100 epochs of pre-training to achieve 82.53% top-1 finetuning accuracy on Imagenet-1K, which outperforms the state-of-the-art self-supervised learning counterparts.

arxiv情報

著者 Qiang Zhou,Chaohui Yu,Hao Luo,Zhibin Wang,Hao Li
発行日 2022-09-07 10:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク