BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

要約

マスク画像モデリング(MIM)は、自己教師付き表現学習において、破損した画像パッチを復元することで素晴らしい結果を示している。しかし、ほとんどの既存研究は低レベルの画像ピクセルで動作しており、表現モデルのための高レベルのセマンティクスの利用を妨げている。本研究では、セマンティックリッチなビジュアル・トークナイザーをマスク予測の再構成対象として用いることを提案し、画素レベルからセマンティックレベルへのMIMを促進する系統的な方法を提供する。具体的には、連続的な意味空間をコンパクトなコードに離散化するトークン化器を訓練するために、ベクトル量子化知識蒸留法を提案する。次に、マスクされた画像パッチに対して、元の視覚的トークンを予測することにより、ビジョントランスフォーマーを事前学習する。さらに、大域的な意味表現を強化するために、離散的な画像パッチを関連付けるパッチアグリゲーション戦略を導入する。画像分類と意味分割の実験により、BEiT v2は比較した全てのMIM手法より優れていることが示された。ImageNet-1K(224サイズ)において、ベースサイズのBEiT v2は、微調整で85.5%のトップ1精度、線形プロービングで80.1%のトップ1精度を達成することができた。ラージサイズのBEiT v2では、ImageNet-1K(224サイズ)のファインチューニングで87.3%のトップ1精度、ADE20Kの意味分割で56.7%のmIoUを達成しています。コードと学習済みモデルは https://aka.ms/beitv2 で公開されています。

要約(オリジナル)

Masked image modeling (MIM) has demonstrated impressive results in self-supervised representation learning by recovering corrupted image patches. However, most existing studies operate on low-level image pixels, which hinders the exploitation of high-level semantics for representation models. In this work, we propose to use a semantic-rich visual tokenizer as the reconstruction target for masked prediction, providing a systematic way to promote MIM from pixel-level to semantic-level. Specifically, we propose vector-quantized knowledge distillation to train the tokenizer, which discretizes a continuous semantic space to compact codes. We then pretrain vision Transformers by predicting the original visual tokens for the masked image patches. Furthermore, we introduce a patch aggregation strategy which associates discrete image patches to enhance global semantic representation. Experiments on image classification and semantic segmentation show that BEiT v2 outperforms all compared MIM methods. On ImageNet-1K (224 size), the base-size BEiT v2 achieves 85.5% top-1 accuracy for fine-tuning and 80.1% top-1 accuracy for linear probing. The large-size BEiT v2 obtains 87.3% top-1 accuracy for ImageNet-1K (224 size) fine-tuning, and 56.7% mIoU on ADE20K for semantic segmentation. The code and pretrained models are available at https://aka.ms/beitv2.

arxiv情報

著者 Zhiliang Peng,Li Dong,Hangbo Bao,Qixiang Ye,Furu Wei
発行日 2022-10-03 11:47:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク