Mixed Autoencoder for Self-supervised Visual Representation Learning

要約

タイトル:自己教示型視覚表現学習のための混合オートエンコーダー

要約:
– Masked Autoencoder(MAE)は、ランダムに画像のパッチをマスキングして再構成することで、さまざまなビジョンタスクで優れたパフォーマンスを示してきました。
– MAEのための効果的なデータ拡張戦略は、大部分のコントラスティブラーニングとは異なり、未解決の問題です。
– この論文では、MAEのための一般的な混合拡張戦略について研究します。
– まず、単純な混合は相互情報量(MI)の増加によってモデルのパフォーマンスが低下することを実証しています。
– これに対処するために、同定認識という補助的プレテキストタスクを提案します。このタスクは、各パッチが同形のパッチを認識することを明示的に要求することによってMIの増加を緩和するとともに、オブジェクト意識の自己教示型事前トレーニングを行います。
– 大規模な実験により、提案されたMixed Autoencoder(MixedAE)が、さまざまな下流タスクでマスク画像モデリング(MIM)の改良方法の中で最先端の転移結果を達成し、効率的な結果を示すことが示されました。
– 具体的には、MixedAEは、標準的なViT-BaseでImageNet-1K、ADE20K、COCOでMAEより+0.3%の精度、+1.7 mIoU、+0.9 APを上回ります。
– さらに、MixedAEは、インスタンスの差別と組み合わせた強力なMIM方法であるiBOTを2倍のトレーニング加速度で上回ります。
– これは、プレテキストタスク設計の観点からMIMのための混合を考慮する最初の研究です。コードは利用可能になります。

要約(オリジナル)

Masked Autoencoder (MAE) has demonstrated superior performance on various vision tasks via randomly masking image patches and reconstruction. However, effective data augmentation strategies for MAE still remain open questions, different from those in contrastive learning that serve as the most important part. This paper studies the prevailing mixing augmentation for MAE. We first demonstrate that naive mixing will in contrast degenerate model performance due to the increase of mutual information (MI). To address, we propose homologous recognition, an auxiliary pretext task, not only to alleviate the MI increasement by explicitly requiring each patch to recognize homologous patches, but also to perform object-aware self-supervised pre-training for better downstream dense perception performance. With extensive experiments, we demonstrate that our proposed Mixed Autoencoder (MixedAE) achieves the state-of-the-art transfer results among masked image modeling (MIM) augmentations on different downstream tasks with significant efficiency. Specifically, our MixedAE outperforms MAE by +0.3% accuracy, +1.7 mIoU and +0.9 AP on ImageNet-1K, ADE20K and COCO respectively with a standard ViT-Base. Moreover, MixedAE surpasses iBOT, a strong MIM method combined with instance discrimination, while accelerating training by 2x. To our best knowledge, this is the very first work to consider mixing for MIM from the perspective of pretext task design. Code will be made available.

arxiv情報

著者 Kai Chen,Zhili Liu,Lanqing Hong,Hang Xu,Zhenguo Li,Dit-Yan Yeung
発行日 2023-03-30 05:19:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク