要約
Vision Transformer (ViT) は半教師付き学習 (SSL) において、データ不足に悩まされている。この問題を軽減するために、データ効率の良い自己教師付き学習器であるマスクドオートエンコーダ(MAE)に触発されて、我々は、視覚表現の学習を支援し、擬似ラベルをより正確にするための並列MAEブランチからなる、純粋なViTベースのSSLフレームワークであるSemi-MAEを提案する。MAEブランチは、軽量デコーダと共有重み付けエンコーダからなる非対称アーキテクチャとして設計されている。マスキング率の高い弱補正非ラベル化データをMAEブランチに与え、欠損画素を再構成する。Semi-MAEは10%のラベルを持つImageNetにおいて75.9%のトップ1精度を達成し、半教師付き画像分類における先行技術を凌駕している。さらに、広範な実験により、Semi-MAEが他のViTモデルやマスク画像モデリング手法に容易に利用できることを実証しています。
要約(オリジナル)
Vision Transformer (ViT) suffers from data scarcity in semi-supervised learning (SSL). To alleviate this issue, inspired by masked autoencoder (MAE), which is a data-efficient self-supervised learner, we propose Semi-MAE, a pure ViT-based SSL framework consisting of a parallel MAE branch to assist the visual representation learning and make the pseudo labels more accurate. The MAE branch is designed as an asymmetric architecture consisting of a lightweight decoder and a shared-weights encoder. We feed the weakly-augmented unlabeled data with a high masking ratio to the MAE branch and reconstruct the missing pixels. Semi-MAE achieves 75.9% top-1 accuracy on ImageNet with 10% labels, surpassing prior state-of-the-art in semi-supervised image classification. In addition, extensive experiments demonstrate that Semi-MAE can be readily used for other ViT models and masked image modeling methods.
arxiv情報
著者 | Haojie Yu,Kang Zhao,Xiaoming Xu |
発行日 | 2023-01-04 03:59:17+00:00 |
arxivサイト | arxiv_id(pdf) |