Masked Image Residual Learning for Scaling Deeper Vision Transformers

要約

Deeper Vision Transformers (ViT) はトレーニングがより困難です。
事前トレーニングにマスク イメージ モデリング (MIM) を使用すると、ViT のより深い層で劣化の問題が明らかになります。
より深い ViT のトレーニングを容易にするために、\textbf{M}asked \textbf{I}mage \textbf{R}esidual \textbf{L}earning (\textbf{MIRL}) と呼ばれる自己教師あり学習フレームワークを導入します。
劣化の問題が大幅に軽減され、深さに沿った ViT のスケーリングがパフォーマンス アップグレードの有望な方向性となります。
ViT のより深い層の事前トレーニング目標を、マスクされた画像の残差を回復する学習として再定式化します。
我々は、MIRL を使用してより深い ViT を効果的に最適化し、深さの増加により容易に精度を得ることができることを示す広範な経験的証拠を提供します。
ViT-Base および ViT-Large と同じレベルの計算複雑さで、ViT-S-54 および ViT-B-48 と呼ばれる、4.5{$\times$} および 2{$\times$} 深い ViT をインスタンス化します。
より深い ViT-S-54 は、ViT-Large よりもコストが 3{$\times$} 安く、ViT-Large と同等のパフォーマンスを実現します。
ViT-B-48 は、ImageNet で 86.2\% トップ 1 の精度を達成します。
一方で、MIRL で事前トレーニングされたより深い ViT は、オブジェクト検出やセマンティック セグメンテーションなどの下流タスクで優れた汎化機能を示します。
一方、MIRL は高い事前トレーニング効率を示します。
MIRL は、事前トレーニング時間が短いため、他のアプローチと比較して競争力のあるパフォーマンスを実現します。

要約(オリジナル)

Deeper Vision Transformers (ViTs) are more challenging to train. We expose a degradation problem in deeper layers of ViT when using masked image modeling (MIM) for pre-training. To ease the training of deeper ViTs, we introduce a self-supervised learning framework called \textbf{M}asked \textbf{I}mage \textbf{R}esidual \textbf{L}earning (\textbf{MIRL}), which significantly alleviates the degradation problem, making scaling ViT along depth a promising direction for performance upgrade. We reformulate the pre-training objective for deeper layers of ViT as learning to recover the residual of the masked image. We provide extensive empirical evidence showing that deeper ViTs can be effectively optimized using MIRL and easily gain accuracy from increased depth. With the same level of computational complexity as ViT-Base and ViT-Large, we instantiate 4.5{$\times$} and 2{$\times$} deeper ViTs, dubbed ViT-S-54 and ViT-B-48. The deeper ViT-S-54, costing 3{$\times$} less than ViT-Large, achieves performance on par with ViT-Large. ViT-B-48 achieves 86.2\% top-1 accuracy on ImageNet. On one hand, deeper ViTs pre-trained with MIRL exhibit excellent generalization capabilities on downstream tasks, such as object detection and semantic segmentation. On the other hand, MIRL demonstrates high pre-training efficiency. With less pre-training time, MIRL yields competitive performance compared to other approaches.

arxiv情報

著者 Guoxi Huang,Hongtao Fu,Adrian G. Bors
発行日 2023-09-25 13:45:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク