Asymmetric Masked Distillation for Pre-Training Small Foundation Models

要約

自己教師付き基礎モデルは、マスクされた自動符号化という事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を示している。スケールは、これらの基礎モデルの性能に影響を与える主な要因である。しかし、このような大規模な基礎モデルは、しばしば高い計算コストをもたらし、その導入が制限される可能性がある。本論文では、下流のタスクに効率的に適応可能な、比較的小さな視覚変換モデルの事前学習に焦点を当てる。具体的には、モデル圧縮における知識蒸留から着想を得て、自動エンコードによる比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(asymmetric masked distillation: AMD)フレームワークを提案する。AMDの中核は、非対称マスキング戦略を考案することであり、教師モデルはより低いマスキング比でより多くのコンテキスト情報を見ることができる一方、生徒モデルは元のマスキングされた事前学習に対して高いマスキング比のままである。我々は、教師エンコーダと生徒エンコーダ間の多層特徴アライメントをカスタマイズし、生徒MAEの事前学習を正則化する。AMDの有効性と汎用性を実証するために、比較的小さなViTモデルを事前学習するために、ImageMAEとVideoMAEの両方にAMDを適用した。AMDは、ViT-Bモデルを用いたIN1Kにおいて84.6%の分類精度を達成した。また、サムシング・イン・サムシングV2データセットでは、VideoMAEのオリジナルViT-Bモデルよりも3.7%向上した73.3%の分類精度を達成しました。また、AMDの事前学習済みモデルを下流のタスクに移植したところ、標準的な事前学習と比較して一貫した性能向上が得られました。

要約(オリジナル)

Self-supervised foundation models have shown great potential in computer vision thanks to the pre-training paradigm of masked autoencoding. Scale is a primary factor influencing the performance of these foundation models. However, these large foundation models often result in high computational cost that might limit their deployment. This paper focuses on pre-training relatively small vision transformer models that could be efficiently adapted to downstream tasks. Specifically, taking inspiration from knowledge distillation in model compression, we propose a new asymmetric masked distillation(AMD) framework for pre-training relatively small models with autoencoding. The core of AMD is to devise an asymmetric masking strategy, where the teacher model is enabled to see more context information with a lower masking ratio, while the student model still with high masking ratio to the original masked pre-training. We design customized multi-layer feature alignment between the teacher encoder and student encoder to regularize the pre-training of student MAE. To demonstrate the effectiveness and versatility of AMD, we apply it to both ImageMAE and VideoMAE for pre-training relatively small ViT models. AMD achieved 84.6% classification accuracy on IN1K using the ViT-B model. And AMD achieves 73.3% classification accuracy using the ViT-B model on the Something-in-Something V2 dataset, a 3.7% improvement over the original ViT-B model from VideoMAE. We also transfer AMD pre-trained models to downstream tasks and obtain consistent performance improvement over the standard pre-training.

arxiv情報

著者 Zhiyu Zhao,Bingkun Huang,Sen Xing,Gangshan Wu,Yu Qiao,Limin Wang
発行日 2023-11-06 14:44:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク