MixMAE: Mixed and Masked Autoencoder for Efficient Pretraining of Hierarchical Vision Transformers

要約

【タイトル】
ヒエラルキカルビジョントランスフォーマーの効率的な事前学習のための混合・マスクされたオートエンコーダー「MixMAE」

【要約】
本論文では、各種のヒエラルキカルビジョントランスフォーマーに適用できる、シンプルで効率的な事前学習方法である混合・マスクされたオートエンコーダー(MixMAE)を提案する。従来のミックスマスク画像モデリング(MIM)手法では、ランダムに選択された一部の入力トークンを特殊な[MASK]シンボルで置き換え、破損した画像から元の画像トークンを再構築することを目的としていたが、[MASK]シンボルを使用することでトレーニングが大幅に遅くなり、事前学習とファインチューニングの一貫性が失われる問題があった。一方、MAEはエンコーダーで[MASK]トークンを導入していないが、ヒエラルキカルビジョントランスフォーマーには適用できない。この問題を解決し、ヒエラルキカルモデルの事前トレーニングを加速するために、1つの画像のマスクされたトークンをもう1つの画像の可視トークンで置き換え、混合画像を作成する。そして、2つの元の画像を混合入力から再構築するデュアル再構築を行うことで、効率を大幅に向上させる。MixMAEは、様々な階層的なトランスフォーマーに適用できるが、本論文では大きなウィンドウサイズを持つSwin Transformerを使用し、巨大なモデルサイズにスケールアップして調査した。実験結果は、MixMAEが高品質のビジュアル表現を効率的に学習できることを示しており、Swin-B/W14のMixMAEでは、600エポックの事前トレーニングによりImageNet-1Kで85.1%のトップ1精度を達成した。また、他の6つのデータセットでの転移性能は、以前の人気のあるMIM手法よりもFLOPs/performanceトレードオフが良いことが示された。コードはhttps://github.com/Sense-X/MixMIMで利用可能である。

要約(オリジナル)

In this paper, we propose Mixed and Masked AutoEncoder (MixMAE), a simple but efficient pretraining method that is applicable to various hierarchical Vision Transformers. Existing masked image modeling (MIM) methods for hierarchical Vision Transformers replace a random subset of input tokens with a special [MASK] symbol and aim at reconstructing original image tokens from the corrupted image. However, we find that using the [MASK] symbol greatly slows down the training and causes pretraining-finetuning inconsistency, due to the large masking ratio (e.g., 60% in SimMIM). On the other hand, MAE does not introduce [MASK] tokens at its encoder at all but is not applicable for hierarchical Vision Transformers. To solve the issue and accelerate the pretraining of hierarchical models, we replace the masked tokens of one image with visible tokens of another image, i.e., creating a mixed image. We then conduct dual reconstruction to reconstruct the two original images from the mixed input, which significantly improves efficiency. While MixMAE can be applied to various hierarchical Transformers, this paper explores using Swin Transformer with a large window size and scales up to huge model size (to reach 600M parameters). Empirical results demonstrate that MixMAE can learn high-quality visual representations efficiently. Notably, MixMAE with Swin-B/W14 achieves 85.1% top-1 accuracy on ImageNet-1K by pretraining for 600 epochs. Besides, its transfer performances on the other 6 datasets show that MixMAE has better FLOPs / performance tradeoff than previous popular MIM methods. Code is available at https://github.com/Sense-X/MixMIM.

arxiv情報

著者 Jihao Liu,Xin Huang,Jinliang Zheng,Yu Liu,Hongsheng Li
発行日 2023-03-31 09:26:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク