要約
少数のショット分類のために、Clip(Radford et al。、2021)のような対照的な前提型の視覚モデルを適応させる問題を検討します。
文献は、凍結された視覚的特徴の線形分類器を学習し、単語の埋め込みを最適化する、または外部機能アダプターの学習を行うことにより、この問題に対処します。
最適化する「外部」パラメーターを追加することなく、少数のショットクリップ適応の代替方法を紹介します。
Visionエンコーダの埋め込み投影マトリックスを単に微調整すると、すべてのベースラインよりもパフォーマンスが向上することがわかります。
さらに、微調整されたマトリックスと前処理されたマトリックスの間の距離を使用した正規化トレーニングは、クリップを適応するための信頼性を高め、「検証なし」の設定で異なる学習レートで結果を安定させることを示します。
このシンプルなアプローチは、造語を巻きつけており、11人の少数の分類ベンチマーク、少数のショットクロスダタセット転送、ドメイン一般化、およびベースから新しいクラスの一般化で最先端のパフォーマンスをもたらします。
また、ProLipは、テスト時間適応の別のタスクに拡張されたときに迅速な調整を大幅に上回ることを示していますが、トレーニングは1桁速くなります。
コードはhttps://github.com/astra-vision/prolipで利用可能になります。
要約(オリジナル)
We consider the problem of adapting a contrastively pretrained vision-language model like CLIP (Radford et al., 2021) for few-shot classification. The literature addresses this problem by learning a linear classifier of the frozen visual features, optimizing word embeddings, or learning external feature adapters. We introduce an alternative way for few-shot CLIP adaptation without adding ”external” parameters to optimize. We find that simply fine-tuning the embedding projection matrix of the vision encoder leads to better performance than all baselines. Furthermore, we show that regularizing training with the distance between the fine-tuned and pretrained matrices adds reliability for adapting CLIP, making the results stable across different learning rates in the ”validation-free” setting. This simple approach, coined ProLIP, yields state-of-the-art performance on 11 few-shot classification benchmarks, few-shot cross-dataset transfer, domain generalization, and base-to-new class generalization. We also show that ProLIP significantly outperforms prompt tuning when extended to another task of test-time adaptation, while being one order of magnitude faster to train. Code will be made available at: https://github.com/astra-vision/ProLIP .
arxiv情報
著者 | Mohammad Fahes,Tuan-Hung Vu,Andrei Bursuc,Patrick Pérez,Raoul de Charette |
発行日 | 2025-03-17 17:52:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google