Fine-Tuning CLIP’s Last Visual Projector: A Few-Shot Cornucopia

要約

CLIP (Radford et al., 2021) のような対照的に事前訓練された視覚言語モデルを少数ショット分類に適応させる問題を検討します。
既存の文献は、凍結された視覚特徴の線形分類器を学習すること、単語埋め込みを最適化すること、または外部特徴アダプターを学習することによって、この問題に対処しています。
このペーパーでは、最適化のための「外部」パラメータを追加せずに CLIP を適応させるための代替方法を紹介します。
ビジョン エンコーダーの最後の投影行列を微調整するだけで、既存のベースラインと比較して優れたパフォーマンスが得られることがわかりました。
さらに、微調整された行列と事前トレーニングされた行列の間の距離を使用してトレーニングを正規化すると、この層を介して CLIP を適応させる信頼性が高まることを示します。
おそらく驚くべきことに、ProLIP と呼ばれるこのアプローチは、11 の少数ショット分類ベンチマーク、少数ショット ドメインの汎化、クロスデータセット転送、およびテスト時間の適応に関して、最先端技術と同等またはそれ以上のパフォーマンスをもたらします。
コードは https://github.com/astra-vision/ProLIP で利用可能になります。

要約(オリジナル)

We consider the problem of adapting a contrastively pretrained vision-language model like CLIP (Radford et al., 2021) for few-shot classification. The existing literature addresses this problem by learning a linear classifier of the frozen visual features, optimizing word embeddings, or learning external feature adapters. This paper introduces an alternative way for CLIP adaptation without adding ‘external’ parameters to optimize. We find that simply fine-tuning the last projection matrix of the vision encoder leads to strong performance compared to the existing baselines. Furthermore, we show that regularizing training with the distance between the fine-tuned and pretrained matrices adds reliability for adapting CLIP through this layer. Perhaps surprisingly, this approach, coined ProLIP, yields performances on par or better than state of the art on 11 few-shot classification benchmarks, few-shot domain generalization, cross-dataset transfer and test-time adaptation. Code will be made available at https://github.com/astra-vision/ProLIP .

arxiv情報

著者 Mohammad Fahes,Tuan-Hung Vu,Andrei Bursuc,Patrick Pérez,Raoul de Charette
発行日 2024-10-07 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク