MimCo: Masked Image Modeling Pre-training with Contrastive Teacher

要約

タイトル:MimCo(Mim Co:コントラストティーチャーを用いた仮面画像モデリング事前学習)
要約:

– 最近、自己教師付き学習(self-supervised learning、SSL)で注目されているのが、仮想画像モデリング(masked image modeling、MIM)であり、入力画像のマスキングされた部分を回復するようにターゲットモデルを要求する。MIMに基づく事前学習手法は、多くの下流タスクに転移する際に新しい最先端のパフォーマンスを達成するが、学習結果の可視化を行うと、学習表現が分離度に欠けていることが分かっている。
– このことから、MIM事前学習表現の線形分離性を改善することで、事前学習パフォーマンスを向上できるのではないかと考えられる。しかし、MIMとコントラスト学習の事前学習は異なるデータ拡張やトレーニング手法を用いるため、これら2つの前提タスクを結合することは容易ではない。
– この研究では、2つの段階の事前学習を使用して、MIMとコントラスト学習を結合することで、柔軟で新しい事前学習フレームワークであるMimCoを提案する。具体的には、MimCoは、2つの学習ターゲット(パッチレベルと画像レベルの再構築損失)で事前学習されたコントラスト学習モデルをティーチャーモデルとして使用する。
– さまざまな転移実験の結果、MimCo事前学習フレームワークが優れたパフォーマンスを発揮することが示された。ViT-Sを例にとると、事前学習モデルであるMoCov3-ViT-Sをティーチャーモデルとして使用する場合、MimCoは事前学習100エポックだけで、Imagenet-1Kで82.53%のトップ1ファインチューニング精度を達成し、最先端の自己教師付き学習のカウンターパートを上回る。

要約(オリジナル)

Recent masked image modeling (MIM) has received much attention in self-supervised learning (SSL), which requires the target model to recover the masked part of the input image. Although MIM-based pre-training methods achieve new state-of-the-art performance when transferred to many downstream tasks, the visualizations show that the learned representations are less separable, especially compared to those based on contrastive learning pre-training. This inspires us to think whether the linear separability of MIM pre-trained representation can be further improved, thereby improving the pre-training performance. Since MIM and contrastive learning tend to utilize different data augmentations and training strategies, combining these two pretext tasks is not trivial. In this work, we propose a novel and flexible pre-training framework, named MimCo, which combines MIM and contrastive learning through two-stage pre-training. Specifically, MimCo takes a pre-trained contrastive learning model as the teacher model and is pre-trained with two types of learning targets: patch-level and image-level reconstruction losses. Extensive transfer experiments on downstream tasks demonstrate the superior performance of our MimCo pre-training framework. Taking ViT-S as an example, when using the pre-trained MoCov3-ViT-S as the teacher model, MimCo only needs 100 epochs of pre-training to achieve 82.53% top-1 finetuning accuracy on Imagenet-1K, which outperforms the state-of-the-art self-supervised learning counterparts.

arxiv情報

著者 Qiang Zhou,Chaohui Yu,Hao Luo,Zhibin Wang,Hao Li
発行日 2023-04-20 07:41:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク