FastMIM: Expediting Masked Image Modeling Pre-training for Vision

要約

トランスフォーマーとマスク イメージ モデリング (MIM) 事前トレーニング フレームワークの組み合わせは、さまざまなビジョン タスクで大きな可能性を示しています。
ただし、トレーニング前の計算予算は重すぎて、MIM が実用的なトレーニング パラダイムになるのを妨げています。
このホワイト ペーパーでは、次の 2 つの手順でマスクされた画像モデリングを促進するためのシンプルで汎用的なフレームワークである FastMIM を紹介します。
(ii)入力画像の元のRGB値の代わりに、勾配方向ヒストグラム(HOG)機能を再構築します。
さらに、大容量モデルの転送結果をさらに向上させるために、事前トレーニング段階で入力解像度を段階的に拡大する FastMIM-P を提案します。
(i) 事前トレーニング段階での幅広い入力解像度は、微調整段階と、検出やセグメンテーションなどの下流タスクで同様のパフォーマンスをもたらす可能性があります。
(ii) エンコーダーの浅いレイヤーは事前トレーニング中に重要であり、最後のいくつかのレイヤーを破棄すると、パフォーマンスの微調整に害を与えることなくトレーニング段階を高速化できます。
(iii) デコーダーは、選択したネットワークのサイズと一致する必要があります。
(iv) 解像度が転送される場合、HOG は RGB 値よりも安定しています。
FastMIM を搭載しているため、あらゆる種類のビジョン バックボーンを効率的に事前トレーニングできます。
たとえば、ViT-B/Swin-B をバックボーンとして ImageNet-1K で 83.8%/84.1% のトップ 1 精度を達成できます。
以前の関連するアプローチと比較して、トレーニング手順を $\sim$5$\times$ 加速しながら、同等またはそれ以上のトップ 1 精度を達成できます。
コードは https://github.com/ggjy/FastMIM.pytorch にあります。

要約(オリジナル)

The combination of transformers and masked image modeling (MIM) pre-training framework has shown great potential in various vision tasks. However, the pre-training computational budget is too heavy and withholds the MIM from becoming a practical training paradigm. This paper presents FastMIM, a simple and generic framework for expediting masked image modeling with the following two steps: (i) pre-training vision backbones with low-resolution input images; and (ii) reconstructing Histograms of Oriented Gradients (HOG) feature instead of original RGB values of the input images. In addition, we propose FastMIM-P to progressively enlarge the input resolution during pre-training stage to further enhance the transfer results of models with high capacity. We point out that: (i) a wide range of input resolutions in pre-training phase can lead to similar performances in fine-tuning phase and downstream tasks such as detection and segmentation; (ii) the shallow layers of encoder are more important during pre-training and discarding last several layers can speed up the training stage with no harm to fine-tuning performance; (iii) the decoder should match the size of selected network; and (iv) HOG is more stable than RGB values when resolution transfers;. Equipped with FastMIM, all kinds of vision backbones can be pre-trained in an efficient way. For example, we can achieve 83.8%/84.1% top-1 accuracy on ImageNet-1K with ViT-B/Swin-B as backbones. Compared to previous relevant approaches, we can achieve comparable or better top-1 accuracy while accelerate the training procedure by $\sim$5$\times$. Code can be found in https://github.com/ggjy/FastMIM.pytorch.

arxiv情報

著者 Jianyuan Guo,Kai Han,Han Wu,Yehui Tang,Yunhe Wang,Chang Xu
発行日 2022-12-13 14:09:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク