TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models

要約

マスク画像モデリング(MIM)は、大規模なVision Transformer(ViT)の事前学習において高い性能を発揮する。しかし、実世界のアプリケーションで重要な小型のモデルは、この事前学習アプローチから利益を得ることができないか、あるいは、わずかな利益しか得られない。本論文では、MIMに基づく大規模な事前学習モデルの成功を、より小規模なモデルへ移行させるための蒸留技術を探求している。我々は、蒸留のフレームワークにおいて、ターゲット、損失、入力、ネットワークの正則化、逐次蒸留など、様々なオプションを系統的に研究し、以下のことを明らかにした。1) トークン関係の蒸留は、CLSトークンおよび特徴量に基づく蒸留よりも効果的である。2) 生徒の深さが教師の深さと一致しない場合、教師ネットワークの中間層をターゲットとした方が、最終層を用いた場合よりも性能が良い。3) 弱い正則化が好ましい、などである。これらの結果、ViT-Tiny、ViT-Small、ViT-baseの全てのモデルを用いて、ImageNet-1K分類においてスクラッチMIM事前学習よりそれぞれ+4.2%、+2.4%、+1.4%と大幅に精度を向上させることに成功しました。ベースサイズのTinyMIMモデルは、AE20Kセマンティックセグメンテーションにおいて52.2mIoUを達成し、MAEベースラインより+4.1%向上させた。我々の極小サイズのTinyMIMモデルは、ImageNet-1K画像分類において79.6%のトップ1精度を達成し、同じサイズと計算予算の小型ビジョンモデルとしては新記録を樹立した。この強力な性能は、小型ビジョンTransformerモデルを開発するための代替方法を示唆しています。つまり、多くの先行研究のようにアーキテクチャに帰納的バイアスを導入するのではなく、より優れた学習方法を模索することによって、小型ビジョンTransformerモデルを開発することができるのです。コードは https://github.com/OliverRensu/TinyMIM で公開されています。

要約(オリジナル)

Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.

arxiv情報

著者 Sucheng Ren,Fangyun Wei,Zheng Zhang,Han Hu
発行日 2023-01-03 18:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク