Observation, Analysis, and Solution: Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training

要約

コンピューター ビジョンにおける大規模ビジョン トランスフォーマー (ViT) のマスク イメージ モデリング (MIM) 事前トレーニングにより、学習された自己教師あり ViT 機能に加えて、有望なダウンストリーム パフォーマンスが可能になりました。
この論文では、小規模アーキテクチャによる非常にシンプルな ViT の微調整パフォーマンスも、この事前トレーニング パラダイムから恩恵を受けることができるかどうかを疑問に思います。この事前トレーニング パラダイムは、確立された軽量アーキテクチャ設計手法とは対照的に、まだあまり研究されていません。
洗練されたコンポーネントが導入されました。
さまざまな典型的な MIM 事前トレーニング手法をこの軽量レジームに慎重に適応させ、さまざまな下流画像分類および高密度予測タスクに関する対照学習 (CL) 事前トレーニングと比較することにより、MIM と CL の間の異なる動作を体系的に観察します。
ダウンストリームのデータスケールを微調整します。
さらに、線形プローブ評価の下でフリーズされた特徴を分析し、得られたモデル全体に​​わたるレイヤー表現の類似性とアテンション マップも分析します。これは、上位レイヤーでの MIM 事前トレーニングの学習が劣っており、データの微調整パフォーマンスが不十分であることを明らかに示しています。
下流のタスクが不十分です。
この発見は当然、上記の劣化問題を解決するための事前トレーニング中に適切な蒸留戦略を選択するためのガイドとなります。
さまざまな視覚タスクに関する広範な実験により、観察、分析、ソリューションのフローの有効性が実証されています。
特に、バニラ/階層設計 (5.7M/6.5M) を備えた純粋な軽量 ViT での蒸留による事前トレーニングは、ImageNet-1K で 79.4%/78.9% のトップ 1 精度を達成できます。
また、軽量領域における ADE20K セマンティック セグメンテーション タスク (42.8% mIoU) および LaSOT 視覚追跡タスク (66.1% AUC) での SOTA パフォーマンスも可能になります。
後者は、現在のすべての SOTA 軽量 CPU リアルタイム トラッカーさえも上回ります。

要約(オリジナル)

Masked image modeling (MIM) pre-training for large-scale vision transformers (ViTs) in computer vision has enabled promising downstream performance on top of the learned self-supervised ViT features. In this paper, we question if the extremely simple ViTs’ fine-tuning performance with a small-scale architecture can also benefit from this pre-training paradigm, which is considerably less studied yet in contrast to the well-established lightweight architecture design methodology with sophisticated components introduced. By carefully adapting various typical MIM pre-training methods to this lightweight regime and comparing them with the contrastive learning (CL) pre-training on various downstream image classification and dense prediction tasks, we systematically observe different behaviors between MIM and CL with respect to the downstream fine-tuning data scales. Furthermore, we analyze the frozen features under linear probing evaluation and also the layer representation similarities and attention maps across the obtained models, which clearly show the inferior learning of MIM pre-training on higher layers, leading to unsatisfactory fine-tuning performance on data-insufficient downstream tasks. This finding is naturally a guide to choosing appropriate distillation strategies during pre-training to solve the above deterioration problem. Extensive experiments on various vision tasks demonstrate the effectiveness of our observation-analysis-solution flow. In particular, our pre-training with distillation on pure lightweight ViTs with vanilla/hierarchical design (5.7M/6.5M) can achieve 79.4%/78.9% top-1 accuracy on ImageNet-1K. It also enables SOTA performance on the ADE20K semantic segmentation task (42.8% mIoU) and LaSOT visual tracking task (66.1% AUC) in the lightweight regime. The latter even surpasses all the current SOTA lightweight CPU-realtime trackers.

arxiv情報

著者 Jin Gao,Shubo Lin,Shaoru Wang,Yutong Kou,Zeming Li,Liang Li,Congxuan Zhang,Xiaoqin Zhang,Yizheng Wang,Weiming Hu
発行日 2024-04-18 14:14:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク