要約
マスク画像モデリング(MIM)は、画像分類、インスタンス対比学習、画像-テキストアライメントなどの従来の事前学習アプローチをしのぐ、極めて優れた微調整性能の表現を学習する。本論文では、これらの事前学習手法の劣る微調整性能が、特徴蒸留法(FD)という簡単な後処理によって大幅に改善されることを示す。特徴抽出は、古い表現を、MIMによって生成される表現と同様に、いくつかの望ましい特性を持つ新しい表現に変換する。これらの特性は、最適化適合性と総称され、注意と最適化に関連する一連の診断ツールによって識別・分析される。これらの性質を持つ新しい表現は、強い微調整性能を示す。具体的には、対比的自己教師あり学習法は、最新のマスク画像モデリング(MIM)アルゴリズムと同等の微調整性能を持つようになる。また、CLIPモデルの微調整性能も大幅に向上し、CLIP ViT-LモデルはImageNet-1K分類において、 \textbf{89.0%} のトップ1精度に到達しました。また、30億パラメータを持つSwinV2-Gモデルでは、ADE20Kの意味分割に対する微調整精度が+1.5mIoU向上し、≪textbf{61.4mIoU}≫となり新記録を達成しました。さらに重要なことは、学習された表現の一般性と拡張性を、最適化にとらわれず、より簡単に強化できることを、今後の研究に提供することである。コードは https://github.com/SwinTransformer/Feature-Distillation で公開される予定です。
要約(オリジナル)
Masked image modeling (MIM) learns representations with remarkably good fine-tuning performances, overshadowing previous prevalent pre-training approaches such as image classification, instance contrastive learning, and image-text alignment. In this paper, we show that the inferior fine-tuning performance of these pre-training approaches can be significantly improved by a simple post-processing in the form of feature distillation (FD). The feature distillation converts the old representations to new representations that have a few desirable properties just like those representations produced by MIM. These properties, which we aggregately refer to as optimization friendliness, are identified and analyzed by a set of attention- and optimization-related diagnosis tools. With these properties, the new representations show strong fine-tuning performance. Specifically, the contrastive self-supervised learning methods are made as competitive in fine-tuning as the state-of-the-art masked image modeling (MIM) algorithms. The CLIP models’ fine-tuning performance is also significantly improved, with a CLIP ViT-L model reaching \textbf{89.0%} top-1 accuracy on ImageNet-1K classification. On the 3-billion-parameter SwinV2-G model, the fine-tuning accuracy on ADE20K semantic segmentation is improved by +1.5 mIoU to \textbf{61.4 mIoU}, creating a new record. More importantly, our work provides a way for the future research to focus more effort on the generality and scalability of the learnt representations without being pre-occupied with optimization friendliness since it can be enhanced rather easily. The code will be available at https://github.com/SwinTransformer/Feature-Distillation.
arxiv情報
| 著者 | Yixuan Wei,Han Hu,Zhenda Xie,Zheng Zhang,Yue Cao,Jianmin Bao,Dong Chen,Baining Guo |
| 発行日 | 2022-07-06 16:25:34+00:00 |
| arxivサイト | arxiv_id(pdf) |