Zero-Shot Distillation for Image Encoders: How to Make Effective Use of Synthetic Data

要約

CLIP などのマルチモーダル基礎モデルは、優れたゼロショット機能を実証しています。
ただし、パラメーターの数が多く、推論時間が長いため、リソースに制約のある環境での適用性は限られています。
既存のアプローチでは CLIP アーキテクチャ全体がスケールダウンされていますが、私たちは効率的なゼロショット分類には十分な、画像エンコーダーのより小さなバリアントのトレーニングに焦点を当てています。
合成データの使用は、大規模な教師から表現を抽出する際に有望であることが示されており、その結果、強力な少数ショットおよび線形プローブのパフォーマンスが得られます。
しかし、このアプローチは、対照的な損失を使用する場合、真のゼロショット設定では驚くほど失敗することがわかりました。
私たちは、偽の特徴の悪用が、合成データと実際のデータの間の不十分な一般化の原因であると特定しています。
ただし、画像特徴ベースの L2 蒸留損失を使用することで、これらの問題を軽減し、4 つのドメイン固有のデータセットで DataCompXL でトレーニングされた ViT-B/32 教師モデルと同等のゼロショット パフォーマンスを達成する生徒をトレーニングします。
最大 92% 少ないパラメーターを備えています。

要約(オリジナル)

Multi-modal foundation models such as CLIP have showcased impressive zero-shot capabilities. However, their applicability in resource-constrained environments is limited due to their large number of parameters and high inference time. While existing approaches have scaled down the entire CLIP architecture, we focus on training smaller variants of the image encoder, which suffices for efficient zero-shot classification. The use of synthetic data has shown promise in distilling representations from larger teachers, resulting in strong few-shot and linear probe performance. However, we find that this approach surprisingly fails in true zero-shot settings when using contrastive losses. We identify the exploitation of spurious features as being responsible for poor generalization between synthetic and real data. However, by using the image feature-based L2 distillation loss, we mitigate these problems and train students that achieve zero-shot performance which on four domain-specific datasets is on-par with a ViT-B/32 teacher model trained on DataCompXL, while featuring up to 92% fewer parameters.

arxiv情報

著者 Niclas Popp,Jan Hendrik Metzen,Matthias Hein
発行日 2024-04-25 14:24:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク