SemMAE: Semantic-Guided Masking for Learning Masked Autoencoders

要約

近年、マスク画像モデリングは、マスク言語モデリングに追いつくべく、大きな進歩を遂げている。しかし、自然言語処理における単語と異なり、画像の意味分解ができないため、視覚と言語では依然としてマスクドオートエンコーディング(MAE)が異なっている。本論文では、言葉の潜在的な視覚的アナログ、すなわち意味的な部分を探索し、意味誘導マスキング戦略を提案することによって、意味情報をMAEの学習過程に統合する。広く採用されているランダムマスキングと比較して、我々のマスキング戦略は、ネットワークが様々な情報、すなわち、パート内パターンからパート間関係までを学習するように徐々に誘導することができる。具体的には、次の2つのステップでこれを実現する。1) 意味的部分学習:自己教師付き部分学習法を設計し、ViTベースのエンコーダの多頭注意を活用・改良して意味的部分を獲得する。2) Semantic-guided MAE (SemMAE) training: 各パートのパッチの一部をマスキングする方法から、画像中の(全体の)パーツの一部をマスキングする方法まで、様々なマスキング戦略を設計する。様々な視覚タスクに対する広範な実験により、SemMAEは意味情報を統合することで、より良い画像表現を学習できることが示された。特に、ImageNet-1kにおいて、SemMAEは84.5%の微調整精度を達成し、バニラMAEを1.4%上回った。また、セマンティックセグメンテーションと細粒度認識課題においても、SemMAEは大幅な改善をもたらし、最先端の性能を実現する。

要約(オリジナル)

Recently, significant progress has been made in masked image modeling to catch up to masked language modeling. However, unlike words in NLP, the lack of semantic decomposition of images still makes masked autoencoding (MAE) different between vision and language. In this paper, we explore a potential visual analogue of words, i.e., semantic parts, and we integrate semantic information into the training process of MAE by proposing a Semantic-Guided Masking strategy. Compared to widely adopted random masking, our masking strategy can gradually guide the network to learn various information, i.e., from intra-part patterns to inter-part relations. In particular, we achieve this in two steps. 1) Semantic part learning: we design a self-supervised part learning method to obtain semantic parts by leveraging and refining the multi-head attention of a ViT-based encoder. 2) Semantic-guided MAE (SemMAE) training: we design a masking strategy that varies from masking a portion of patches in each part to masking a portion of (whole) parts in an image. Extensive experiments on various vision tasks show that SemMAE can learn better image representation by integrating semantic information. In particular, SemMAE achieves 84.5% fine-tuning accuracy on ImageNet-1k, which outperforms the vanilla MAE by 1.4%. In the semantic segmentation and fine-grained recognition tasks, SemMAE also brings significant improvements and yields the state-of-the-art performance.

arxiv情報

著者 Gang Li,Heliang Zheng,Daqing Liu,Chaoyue Wang,Bing Su,Changwen Zheng
発行日 2022-10-05 17:35:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク