CLIP-KD: An Empirical Study of CLIP Model Distillation

要約

Contrastive Language-Image Pre-training (CLIP) は、言語教師ありの視覚的な事前トレーニング フレームワークとして有望です。
この論文は、大きな教師 CLIP モデルによって監視された小さな CLIP モデルを抽出することを目的としています。
我々は、CLIP-Knowledge Distillation (KD) の有効性を調べるために、関係、特徴、勾配、対照パラダイムを含むいくつかの蒸留戦略を提案します。
平均二乗誤差損失による単純な特徴の模倣が驚くほどうまく機能することを示します。
さらに、教師と生徒のエンコーダーにわたる対話型の対比学習もパフォーマンスの向上に効果的です。
CLIP-KD の成功は、教師と生徒の間の特徴の類似性を最大化したことに起因すると説明します。
統一されたメソッドは、CC3M+12M でトレーニングされた複数の学生モデルを抽出するために適用されます。
CLIP-KD は、ゼロショット ImageNet 分類およびクロスモーダル検索ベンチマークを超えて、一貫して学生 CLIP モデルを改善します。
Laion-400M で事前トレーニングされた ViT-L/14 を教師として使用すると、CLIP-KD は、ViT-B/16 および ResNet-50 に対して 57.5\% および 55.4\% のゼロショット トップ 1 ImageNet 精度を達成し、元の CLIP を上回ります。
KD なしの場合は、それぞれ 20.5\% および 20.1\% のマージンです。
私たちのコードは https://github.com/winycg/CLIP-KD で公開されています。

要約(オリジナル)

Contrastive Language-Image Pre-training (CLIP) has become a promising language-supervised visual pre-training framework. This paper aims to distill small CLIP models supervised by a large teacher CLIP model. We propose several distillation strategies, including relation, feature, gradient and contrastive paradigms, to examine the effectiveness of CLIP-Knowledge Distillation (KD). We show that a simple feature mimicry with Mean Squared Error loss works surprisingly well. Moreover, interactive contrastive learning across teacher and student encoders is also effective in performance improvement. We explain that the success of CLIP-KD can be attributed to maximizing the feature similarity between teacher and student. The unified method is applied to distill several student models trained on CC3M+12M. CLIP-KD improves student CLIP models consistently over zero-shot ImageNet classification and cross-modal retrieval benchmarks. When using ViT-L/14 pretrained on Laion-400M as the teacher, CLIP-KD achieves 57.5\% and 55.4\% zero-shot top-1 ImageNet accuracy over ViT-B/16 and ResNet-50, surpassing the original CLIP without KD by 20.5\% and 20.1\% margins, respectively. Our code is released on https://github.com/winycg/CLIP-KD.

arxiv情報

著者 Chuanguang Yang,Zhulin An,Libo Huang,Junyu Bi,Xinqiang Yu,Han Yang,Boyu Diao,Yongjun Xu
発行日 2024-05-07 16:49:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク