TinyViT: Fast Pretraining Distillation for Small Vision Transformers

要約

ビジョントランスフォーマー(ViT)は、その卓越したモデル機能により、最近コンピュータービジョンで大きな注目を集めています。
ただし、ほとんどの一般的なViTモデルは、膨大な数のパラメーターに悩まされており、リソースが限られているデバイスへの適用が制限されています。
この問題を軽減するために、提案された高速蒸留フレームワークを使用して大規模データセットで事前トレーニングされた、小型で効率的な小型ビジョントランスフォーマーの新しいファミリであるTinyViTを提案します。
中心的なアイデアは、知識を大規模な事前トレーニング済みモデルから小規模なモデルに転送すると同時に、小規模なモデルが大量の事前トレーニング済みデータの成果を得ることができるようにすることです。
より具体的には、知識移転のための事前トレーニング中に蒸留を適用します。
大規模な教師モデルのロジットは、メモリコストと計算のオーバーヘッドを節約するために、事前にスパース化されてディスクに保存されます。
小さな学生トランスフォーマーは、計算とパラメーターの制約がある大規模な事前トレーニング済みモデルから自動的に縮小されます。
包括的な実験により、TinyViTの有効性が実証されています。
わずか21MのパラメーターでImageNet-1kで84.8%のトップ1精度を達成し、4.2分の1のパラメーターを使用しながらImageNet-21kで事前トレーニングされたSwin-Bに匹敵します。
さらに、画像の解像度を上げると、TinyViTは86.5%の精度に達することができ、11%のパラメーターのみを使用しながら、Swin-Lよりもわずかに優れています。
最後になりましたが、さまざまなダウンストリームタスクでTinyViTの優れた転送機能を示します。
コードとモデルはhttps://github.com/microsoft/Cream/tree/main/TinyViTで入手できます。

要約(オリジナル)

Vision transformer (ViT) recently has drawn great attention in computer vision due to its remarkable model capability. However, most prevailing ViT models suffer from huge number of parameters, restricting their applicability on devices with limited resources. To alleviate this issue, we propose TinyViT, a new family of tiny and efficient small vision transformers pretrained on large-scale datasets with our proposed fast distillation framework. The central idea is to transfer knowledge from large pretrained models to small ones, while enabling small models to get the dividends of massive pretraining data. More specifically, we apply distillation during pretraining for knowledge transfer. The logits of large teacher models are sparsified and stored in disk in advance to save the memory cost and computation overheads. The tiny student transformers are automatically scaled down from a large pretrained model with computation and parameter constraints. Comprehensive experiments demonstrate the efficacy of TinyViT. It achieves a top-1 accuracy of 84.8% on ImageNet-1k with only 21M parameters, being comparable to Swin-B pretrained on ImageNet-21k while using 4.2 times fewer parameters. Moreover, increasing image resolutions, TinyViT can reach 86.5% accuracy, being slightly better than Swin-L while using only 11% parameters. Last but not the least, we demonstrate a good transfer ability of TinyViT on various downstream tasks. Code and models are available at https://github.com/microsoft/Cream/tree/main/TinyViT.

arxiv情報

著者 Kan Wu,Jinnian Zhang,Houwen Peng,Mengchen Liu,Bin Xiao,Jianlong Fu,Lu Yuan
発行日 2022-07-21 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク