TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance

要約

この論文では、大規模な言語イメージの事前訓練済みモデル向けに、TinyCLIP と呼ばれる新しいクロスモーダル蒸留方法を提案します。
このメソッドでは、アフィニティの模倣と重みの継承という 2 つのコア技術が導入されています。
親和性模倣は、蒸留中のモダリティ間の相互作用を調査し、生徒モデルが視覚言語的親和性空間でクロスモーダル特徴アライメントを学習する教師の動作を模倣できるようにします。
重みの継承により、事前トレーニングされた重みが教師モデルから対応する生徒に送信され、蒸留効率が向上します。
さらに、極度の圧縮時の情報重量の損失を軽減するために、この方法を多段階の漸進蒸留に拡張しました。
包括的な実験により、TinyCLIP の有効性が実証され、同等のゼロショット パフォーマンスを維持しながら、事前トレーニングされた CLIP ViT-B/32 のサイズを 50% 削減できることが示されました。
同等のパフォーマンスを目指しながら、重み継承を使用した蒸留では、最初からトレーニングする場合と比較して、トレーニングを 1.4 ~ 7.8 $\times$ 高速化できます。
さらに、YFCC-15M でトレーニングされた当社の TinyCLIP ViT-8M/16 は、ImageNet 上で 41.1% という驚異的なゼロショット トップ 1 精度を達成し、わずか 8.9% のパラメータを利用しながらオリジナルの CLIP ViT-B/16 を 3.5% 上回っています。

最後に、さまざまな下流タスクにおける TinyCLIP の良好な転送性を実証します。
コードとモデルは https://aka.ms/tinyclip でオープンソース化されます。

要約(オリジナル)

In this paper, we propose a novel cross-modal distillation method, called TinyCLIP, for large-scale language-image pre-trained models. The method introduces two core techniques: affinity mimicking and weight inheritance. Affinity mimicking explores the interaction between modalities during distillation, enabling student models to mimic teachers’ behavior of learning cross-modal feature alignment in a visual-linguistic affinity space. Weight inheritance transmits the pre-trained weights from the teacher models to their student counterparts to improve distillation efficiency. Moreover, we extend the method into a multi-stage progressive distillation to mitigate the loss of informative weights during extreme compression. Comprehensive experiments demonstrate the efficacy of TinyCLIP, showing that it can reduce the size of the pre-trained CLIP ViT-B/32 by 50%, while maintaining comparable zero-shot performance. While aiming for comparable performance, distillation with weight inheritance can speed up the training by 1.4 – 7.8 $\times$ compared to training from scratch. Moreover, our TinyCLIP ViT-8M/16, trained on YFCC-15M, achieves an impressive zero-shot top-1 accuracy of 41.1% on ImageNet, surpassing the original CLIP ViT-B/16 by 3.5% while utilizing only 8.9% parameters. Finally, we demonstrate the good transferability of TinyCLIP in various downstream tasks. Code and models will be open-sourced at https://aka.ms/tinyclip.

arxiv情報

著者 Kan Wu,Houwen Peng,Zhenghong Zhou,Bin Xiao,Mengchen Liu,Lu Yuan,Hong Xuan,Michael Valenzuela,Xi,Chen,Xinggang Wang,Hongyang Chao,Han Hu
発行日 2023-09-21 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク