Masked Autoencoders Enable Efficient Knowledge Distillers

要約

このホワイト ペーパーでは、事前にトレーニングされたモデル、特にマスク オートエンコーダーから知識を抽出する可能性について検討します。
私たちのアプローチは単純です。マスクされた入力のピクセル再構成損失を最適化することに加えて、教師モデルの中間特徴マップと生徒モデルの中間特徴マップの間の距離を最小限に抑えます。
この設計は、1) 目に見えるパッチの小さなサブセットのみが使用され、2) (面倒な) 教師モデルは部分的にのみ実行される必要がある、\つまり、最初のいくつかの入力を介して入力を順伝播することを考えると、計算効率の高い知識抽出フレームワークにつながります。
中間特徴マップを取得するためのレイヤー。
微調整されたモデルを直接抽出する場合と比較して、事前トレーニング済みのモデルを抽出すると、下流のパフォーマンスが大幅に向上します。
たとえば、MAE で事前トレーニングされた ViT-L から得た知識を ViT-B に抽出することにより、この方法は 84.0% の ImageNet トップ 1 精度を達成し、微調整された ViT-L を直接抽出するベースラインを 1.2% 上回っています。
さらに興味深いことに、私たちの方法は、非常に高いマスキング率でも教師モデルから知識を確実に抽出できます。たとえば、蒸留中に 10 個のパッチしか見えない 95% のマスキング率で、ViT-B は 83.6% のトップ 1 の ImageNet 精度を競合的に達成します。
;
驚くべきことに、わずか 4 つの可視パッチ (マスキング率 98%) を使用して積極的にトレーニングすることで、82.4% のトップ 1 の ImageNet 精度を確保できます。
コードとモデルは、https://github.com/UCSC-VLAA/DMAE で公開されています。

要約(オリジナル)

This paper studies the potential of distilling knowledge from pre-trained models, especially Masked Autoencoders. Our approach is simple: in addition to optimizing the pixel reconstruction loss on masked inputs, we minimize the distance between the intermediate feature map of the teacher model and that of the student model. This design leads to a computationally efficient knowledge distillation framework, given 1) only a small visible subset of patches is used, and 2) the (cumbersome) teacher model only needs to be partially executed, \ie, forward propagate inputs through the first few layers, for obtaining intermediate feature maps. Compared to directly distilling fine-tuned models, distilling pre-trained models substantially improves downstream performance. For example, by distilling the knowledge from an MAE pre-trained ViT-L into a ViT-B, our method achieves 84.0% ImageNet top-1 accuracy, outperforming the baseline of directly distilling a fine-tuned ViT-L by 1.2%. More intriguingly, our method can robustly distill knowledge from teacher models even with extremely high masking ratios: e.g., with 95% masking ratio where merely TEN patches are visible during distillation, our ViT-B competitively attains a top-1 ImageNet accuracy of 83.6%; surprisingly, it can still secure 82.4% top-1 ImageNet accuracy by aggressively training with just FOUR visible patches (98% masking ratio). The code and models are publicly available at https://github.com/UCSC-VLAA/DMAE.

arxiv情報

著者 Yutong Bai,Zeyu Wang,Junfei Xiao,Chen Wei,Huiyu Wang,Alan Yuille,Yuyin Zhou,Cihang Xie
発行日 2022-08-25 17:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク