Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation

要約

マスク画像モデリング (MIM) は、非常に優れた微調整パフォーマンスで表現を学習し、画像分類、インスタンス対比学習、画像とテキストの配置などの以前の一般的な事前トレーニング アプローチを覆い隠します。
このホワイトペーパーでは、これらの事前トレーニングアプローチの劣った微調整パフォーマンスが、機能蒸留 (FD) の形での単純な後処理によって大幅に改善できることを示します。
特徴抽出は、古い表現を、MIM によって生成される表現と同様に、いくつかの望ましい特性を持つ新しい表現に変換します。
これらのプロパティは、まとめて最適化のしやすさと呼ばれ、一連の注意および最適化関連の診断ツールによって識別および分析されます。
これらのプロパティにより、新しい表現は強力な微調整パフォーマンスを示します。
具体的には、対照的な自己教師あり学習方法は、最先端のマスクされた画像モデリング (MIM) アルゴリズムと同じくらい微調整において競争力があります。
CLIP モデルの微調整パフォーマンスも大幅に改善され、CLIP ViT-L モデルは ImageNet-1K 分類で 89.0% のトップ 1 精度に達しました。
30 億パラメーターの SwinV2-G モデルでは、ADE20K セマンティック セグメンテーションと COCO オブジェクト検出で、微調整精度がそれぞれ +1.5 mIoU / +1.1 mAP から 61.4 mIoU / 64.2 mAP 向上し、両方のベンチマークで新しい記録を作成しました。
.
さらに重要なことは、私たちの研究は、学習された表現の一般性とスケーラビリティにより多くの努力を集中させる方法を将来の研究に提供することです。
コードは https://github.com/SwinTransformer/Feature-Distillation で入手できます。

要約(オリジナル)

Masked image modeling (MIM) learns representations with remarkably good fine-tuning performances, overshadowing previous prevalent pre-training approaches such as image classification, instance contrastive learning, and image-text alignment. In this paper, we show that the inferior fine-tuning performance of these pre-training approaches can be significantly improved by a simple post-processing in the form of feature distillation (FD). The feature distillation converts the old representations to new representations that have a few desirable properties just like those representations produced by MIM. These properties, which we aggregately refer to as optimization friendliness, are identified and analyzed by a set of attention- and optimization-related diagnosis tools. With these properties, the new representations show strong fine-tuning performance. Specifically, the contrastive self-supervised learning methods are made as competitive in fine-tuning as the state-of-the-art masked image modeling (MIM) algorithms. The CLIP models’ fine-tuning performance is also significantly improved, with a CLIP ViT-L model reaching 89.0% top-1 accuracy on ImageNet-1K classification. On the 3-billion-parameter SwinV2-G model, the fine-tuning accuracy is improved by +1.5 mIoU / +1.1 mAP to 61.4 mIoU / 64.2 mAP on ADE20K semantic segmentation and COCO object detection, respectively, creating new records on both benchmarks. More importantly, our work provides a way for the future research to focus more effort on the generality and scalability of the learnt representations without being pre-occupied with optimization friendliness since it can be enhanced rather easily. The code will be available at https://github.com/SwinTransformer/Feature-Distillation.

arxiv情報

著者 Yixuan Wei,Han Hu,Zhenda Xie,Zheng Zhang,Yue Cao,Jianmin Bao,Dong Chen,Baining Guo
発行日 2022-08-24 16:48:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク