BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

要約

マスク イメージ モデリング (MIM) は、破損したイメージ パッチを回復することにより、自己教師あり表現学習において印象的な結果を示しました。
ただし、ほとんどのメソッドは依然として低レベルの画像ピクセルで動作するため、表現モデルの高レベルのセマンティクスの活用が妨げられています。
この研究では、マスクされた予測の再構成ターゲットとしてセマンティックリッチなビジュアルトークナイザーを使用することを提案し、MIM をピクセルレベルからセマンティックレベルに促進する体系的な方法を提供します。
具体的には、ベクトル量子化された知識の蒸留を導入して、連続した意味空間を離散化してコードをコンパクトにするトークナイザーをトレーニングします。
次に、マスクされた画像パッチの元のビジュアル トークンを予測することで、ビジョン トランスフォーマーを事前トレーニングします。
さらに、モデルがパッチ情報をグローバルな画像表現に明示的に集約することをお勧めします。これにより、線形プローブが容易になります。
画像分類とセマンティック セグメンテーションに関する実験は、我々のアプローチが比較したすべての MIM メソッドよりも優れていることを示しています。
ImageNet-1K (224 サイズ) では、基本サイズの BEiT v2 は、微調整で 85.5% のトップ 1 精度、線形プロービングで 80.1% のトップ 1 精度を達成します。
大規模な BEiT v2 は、ImageNet-1K (224 サイズ) の微​​調整で 87.3% のトップ 1 精度を取得し、セマンティック セグメンテーションで ADE20K で 56.7% の mIoU を取得します。
コードと事前トレーニング済みのモデルは、https://aka.ms/beit で入手できます。

要約(オリジナル)

Masked image modeling (MIM) has demonstrated impressive results in self-supervised representation learning by recovering corrupted image patches. However, most methods still operate on low-level image pixels, which hinders the exploitation of high-level semantics for representation models. In this study, we propose to use a semantic-rich visual tokenizer as the reconstruction target for masked prediction, providing a systematic way to promote MIM from pixel-level to semantic-level. Specifically, we introduce vector-quantized knowledge distillation to train the tokenizer, which discretizes a continuous semantic space to compact codes. We then pretrain vision Transformers by predicting the original visual tokens for the masked image patches. Moreover, we encourage the model to explicitly aggregate patch information into a global image representation, which facilities linear probing. Experiments on image classification and semantic segmentation show that our approach outperforms all compared MIM methods. On ImageNet-1K (224 size), the base-size BEiT v2 achieves 85.5% top-1 accuracy for fine-tuning and 80.1% top-1 accuracy for linear probing. The large-size BEiT v2 obtains 87.3% top-1 accuracy for ImageNet-1K (224 size) fine-tuning, and 56.7% mIoU on ADE20K for semantic segmentation. The code and pretrained models are available at https://aka.ms/beit.

arxiv情報

著者 Zhiliang Peng,Li Dong,Hangbo Bao,Qixiang Ye,Furu Wei
発行日 2022-08-12 16:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク