Fine-Tuning CLIP’s Last Visual Projector: A Few-Shot Cornucopia

要約

CLIP (Radford et al., 2021) のような対照的に事前訓練された視覚言語モデルを少数ショット分類に適応させる問題を検討します。
文献では、凍結された視覚特徴の線形分類器を学習すること、単語埋め込みを最適化すること、または外部特徴アダプターを学習することによって、この問題に対処しています。
このペーパーでは、最適化のための「外部」パラメータを追加せずに CLIP を適応させるための代替方法を紹介します。
ビジョン エンコーダーの最後の投影行列を微調整するだけで、すべてのベースラインよりも優れたパフォーマンスが得られることがわかりました。
さらに、微調整された行列と事前トレーニングされた行列の間の距離を使用してトレーニングを正規化すると、CLIP を適応させるための信頼性が高まることを示します。
ProLIP と呼ばれるこのシンプルなアプローチは、11 の少数ショット分類ベンチマーク、少数ショットのドメイン一般化、データセット間転送、ベースから新しいクラスへの一般化、およびテスト時間の適応において最先端のパフォーマンスをもたらします。
コードは https://github.com/astra-vision/ProLIP で利用可能になります。

要約(オリジナル)

We consider the problem of adapting a contrastively pretrained vision-language model like CLIP (Radford et al., 2021) for few-shot classification. The literature addresses this problem by learning a linear classifier of the frozen visual features, optimizing word embeddings, or learning external feature adapters. This paper introduces an alternative way for CLIP adaptation without adding ‘external’ parameters to optimize. We find that simply fine-tuning the last projection matrix of the vision encoder leads to performance better than all baselines. Furthermore, we show that regularizing training with the distance between the fine-tuned and pretrained matrices adds reliability for adapting CLIP. This simple approach, coined ProLIP, yields state-of-the-art performance on 11 few-shot classification benchmarks, few-shot domain generalization, cross-dataset transfer, base-to-new class generalization, and test-time adaptation. Code will be made available at: https://github.com/astra-vision/ProLIP .

arxiv情報

著者 Mohammad Fahes,Tuan-Hung Vu,Andrei Bursuc,Patrick Pérez,Raoul de Charette
発行日 2024-12-06 16:07:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク