要約
CLIP は、言語教師付きビジュアル事前トレーニング フレームワークとして有望であり、幅広いタスクにわたって優れたパフォーマンスを実現します。
この論文は、大きな教師 CLIP モデルによって監視された小さな CLIP モデルを抽出することを目的としています。
我々は、CLIP 蒸留への影響を調べるために、関係、特徴、勾配、対照パラダイムを含むいくつかの蒸留戦略を提案します。
MSE 損失を伴う最も単純な特徴模倣が最高のパフォーマンスを発揮することを示します。
さらに、インタラクティブな対比学習と関係ベースの蒸留もパフォーマンス向上に重要です。
統一手法を適用して、1,500 万の (画像、テキスト) ペアでトレーニングされた複数の学生ネットワークを抽出します。
蒸留により、ゼロショット ImageNet 分類およびクロスモーダル検索ベンチマークよりも一貫してスチューデント CLIP モデルが改善されます。
私たちの実証研究が将来の CLIP 蒸留研究の重要なベースラインになることを願っています。
コードは \url{https://github.com/winycg/CLIP-KD} で入手できます。
要約(オリジナル)
CLIP has become a promising language-supervised visual pre-training framework and achieves excellent performance over a wide range of tasks. This paper aims to distill small CLIP models supervised by a large teacher CLIP model. We propose several distillation strategies, including relation, feature, gradient and contrastive paradigm, to examine the impact on CLIP distillation. We show that the simplest feature mimicry with MSE loss performs best. Moreover, interactive contrastive learning and relation-based distillation are also critical in performance improvement. We apply the unified method to distill several student networks trained on 15 million (image, text) pairs. Distillation improves the student CLIP models consistently over zero-shot ImageNet classification and cross-modal retrieval benchmarks. We hope our empirical study will become an important baseline for future CLIP distillation research. The code is available at \url{https://github.com/winycg/CLIP-KD}.
arxiv情報
著者 | Chuanguang Yang,Zhulin An,Libo Huang,Junyu Bi,Xinqiang Yu,Han Yang,Yongjun Xu |
発行日 | 2023-07-24 12:24:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google