Contrastive Masked Autoencoders are Stronger Vision Learners

要約

マスク画像モデリング(MIM)は、さまざまなビジョンタスクで有望な結果を達成しています。
しかし、学習された表現の限定された識別可能性は、より強力なビジョン学習者を作るために行くべきことがまだたくさんあることを示しています。
この目標に向けて、より包括的で有能な視覚表現を学習するための新しい自己教師あり事前トレーニング方法であるContrastive Masked Autoencoders(CMAE)を提案します。
対照的な学習(CL)とマスクされた画像モデル(MIM)を斬新なデザインで精巧に統合することにより、CMAEはそれぞれの利点を活用し、強力なインスタンスの識別可能性とローカルな知覚可能性の両方を備えた表現を学習します。
具体的には、CMAEは2つのブランチで構成され、オンラインブランチは非対称エンコーダーデコーダーであり、ターゲットブランチは運動量更新エンコーダーです。
トレーニング中に、オンラインエンコーダーは、マスクされた画像の潜在的な表現から元の画像を再構築して、全体的な特徴を学習します。
完全な画像が供給されるターゲットエンコーダーは、オンライン版との対照的な学習によって機能の識別性を高めます。
CLをMIMと互換性を持たせるために、CMAEは2つの新しいコンポーネントを導入します。つまり、もっともらしいポジティブビューを生成するためのピクセルシフトと、対照的なペアの機能を補完するための機能デコーダーです。
これらの斬新なデザインのおかげで、CMAEは、対応するMIMよりも表現品質と転送パフォーマンスを効果的に向上させます。
CMAEは、画像分類、セマンティックセグメンテーション、オブジェクト検出の非常に競争力のあるベンチマークで最先端のパフォーマンスを実現します。
特に、CMAE-BaseはImageNetで$ 85.3 \%$のトップ1精度を達成し、ADE20kで$ 52.5 \%$ mIoUを達成し、以前の最高の結果をそれぞれ$ 0.7 \%$と$ 1.8 \%$上回っています。
コードは公開されます。

要約(オリジナル)

Masked image modeling (MIM) has achieved promising results on various vision tasks. However, the limited discriminability of learned representation manifests there is still plenty to go for making a stronger vision learner. Towards this goal, we propose Contrastive Masked Autoencoders (CMAE), a new self-supervised pre-training method for learning more comprehensive and capable vision representations. By elaboratively unifying contrastive learning (CL) and masked image model (MIM) through novel designs, CMAE leverages their respective advantages and learns representations with both strong instance discriminability and local perceptibility. Specifically, CMAE consists of two branches where the online branch is an asymmetric encoder-decoder and the target branch is a momentum updated encoder. During training, the online encoder reconstructs original images from latent representations of masked images to learn holistic features. The target encoder, fed with the full images, enhances the feature discriminability via contrastive learning with its online counterpart. To make CL compatible with MIM, CMAE introduces two new components, i.e. pixel shift for generating plausible positive views and feature decoder for complementing features of contrastive pairs. Thanks to these novel designs, CMAE effectively improves the representation quality and transfer performance over its MIM counterpart. CMAE achieves the state-of-the-art performance on highly competitive benchmarks of image classification, semantic segmentation and object detection. Notably, CMAE-Base achieves $85.3\%$ top-1 accuracy on ImageNet and $52.5\%$ mIoU on ADE20k, surpassing previous best results by $0.7\%$ and $1.8\%$ respectively. Codes will be made publicly available.

arxiv情報

著者 Zhicheng Huang,Xiaojie Jin,Chengze Lu,Qibin Hou,Ming-Ming Cheng,Dongmei Fu,Xiaohui Shen,Jiashi Feng
発行日 2022-07-27 14:04:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク