Mimic before Reconstruct: Enhancing Masked Autoencoders with Feature Mimicking

要約

マスク オートエンコーダー (MAE) は、大規模な視覚表現の事前トレーニングの一般的なパラダイムです。
ただし、MAE はデコーダーの後に低レベルの RGB 信号を再構築するだけであり、エンコーダーの高レベルのセマンティクスの監視が不足しているため、最適ではない学習表現と長い事前トレーニング エポックに悩まされます。
これを軽減するために、以前の方法では、75% マスクされたトークンのピクセル再構成ターゲットを、事前トレーニング済みの画像 – 画像 (DINO) または画像 – 言語 (CLIP) の対比学習からエンコードされた特徴に置き換えるだけでした。
これらの取り組みとは異なり、事前トレーニング中に干渉することなく高レベルと低レベルの表現を共同で学習する MR-MAE と呼ばれる、マスクされたオートエンコーダーの再構築前に Mimic を提案します。
高レベルのセマンティクスの場合、MR-MAE は、エンコーダーからの 25% を超える可視トークンの模倣損失を使用して、CLIP および DINO でエンコードされた事前トレーニング済みのパターンをキャプチャします。
低レベルの構造の場合、MAE の再構成損失を継承して、デコーダーの後に 75% マスクされたトークンの RGB ピクセル値を予測します。
MR-MAE は高レベルのターゲットと低レベルのターゲットをそれぞれ異なるパーティションに適用するため、それらの間の学習の競合は自然に克服され、さまざまなダウンストリーム タスクの優れた視覚的表現に貢献します。
ImageNet-1K では、わずか 400 エポックで事前トレーニングされた MR-MAE ベースは、微調整後に 85.8% のトップ 1 精度を達成し、1600 エポック MAE ベースを +2.2% 上回っており、以前の最先端技術を上回っています。
BEiT V2 ベース +0.3%。
コードと事前トレーニング済みのモデルは、https://github.com/Alpha-VL/ConvMAE でリリースされます。

要約(オリジナル)

Masked Autoencoders (MAE) have been popular paradigms for large-scale vision representation pre-training. However, MAE solely reconstructs the low-level RGB signals after the decoder and lacks supervision upon high-level semantics for the encoder, thus suffering from sub-optimal learned representations and long pre-training epochs. To alleviate this, previous methods simply replace the pixel reconstruction targets of 75% masked tokens by encoded features from pre-trained image-image (DINO) or image-language (CLIP) contrastive learning. Different from those efforts, we propose to Mimic before Reconstruct for Masked Autoencoders, named as MR-MAE, which jointly learns high-level and low-level representations without interference during pre-training. For high-level semantics, MR-MAE employs a mimic loss over 25% visible tokens from the encoder to capture the pre-trained patterns encoded in CLIP and DINO. For low-level structures, we inherit the reconstruction loss in MAE to predict RGB pixel values for 75% masked tokens after the decoder. As MR-MAE applies high-level and low-level targets respectively at different partitions, the learning conflicts between them can be naturally overcome and contribute to superior visual representations for various downstream tasks. On ImageNet-1K, the MR-MAE base pre-trained for only 400 epochs achieves 85.8% top-1 accuracy after fine-tuning, surpassing the 1600-epoch MAE base by +2.2% and the previous state-of-the-art BEiT V2 base by +0.3%. Code and pre-trained models will be released at https://github.com/Alpha-VL/ConvMAE.

arxiv情報

著者 Peng Gao,Renrui Zhang,Rongyao Fang,Ziyi Lin,Hongyang Li,Hongsheng Li,Qiao Yu
発行日 2023-03-09 18:28:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク