A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation

要約

Contrastive Language-Image Pretraining (CLIP) は、その驚くべきゼロショット能力で人気を集めています。
最近の研究は、下流タスクにおける CLIP のパフォーマンスを向上させるための、即時学習やアダプターなどの効率的な微調整方法の開発に焦点を当てています。
ただし、これらの方法でも追加のトレーニング時間と計算リソースが必要であり、リソースが限られているデバイスにとっては望ましくありません。
この論文では、古典的なアルゴリズムであるガウス判別分析 (GDA) を再考し、それを CLIP の下流分類に適用します。
通常、GDA は、各クラスの特徴が同一の共分散を持つガウス分布に従うと想定します。
ベイズの公式を利用することにより、分類器はクラス平均と共分散の観点から表現でき、トレーニングを必要とせずにデータから推定できます。
視覚的モダリティとテキストモダリティの両方からの知識を統合するために、CLIP 内のオリジナルのゼロショット分類器とアンサンブルします。
17 のデータセットに関する広範な結果により、私たちの手法が少数ショット分類、不均衡学習、分布外汎化に関して最先端の手法を上回る、または同等の結果を達成できることが検証されています。
さらに、私たちはこの方法を基本から新しい一般化と教師なし学習に拡張し、競合するアプローチに対するこの方法の優位性を再度実証します。
私たちのコードは \url{https://github.com/mrflogs/ICLR24} で公開されています。

要約(オリジナル)

Contrastive Language-Image Pretraining (CLIP) has gained popularity for its remarkable zero-shot capacity. Recent research has focused on developing efficient fine-tuning methods, such as prompt learning and adapter, to enhance CLIP’s performance in downstream tasks. However, these methods still require additional training time and computational resources, which is undesirable for devices with limited resources. In this paper, we revisit a classical algorithm, Gaussian Discriminant Analysis (GDA), and apply it to the downstream classification of CLIP. Typically, GDA assumes that features of each class follow Gaussian distributions with identical covariance. By leveraging Bayes’ formula, the classifier can be expressed in terms of the class means and covariance, which can be estimated from the data without the need for training. To integrate knowledge from both visual and textual modalities, we ensemble it with the original zero-shot classifier within CLIP. Extensive results on 17 datasets validate that our method surpasses or achieves comparable results with state-of-the-art methods on few-shot classification, imbalanced learning, and out-of-distribution generalization. In addition, we extend our method to base-to-new generalization and unsupervised learning, once again demonstrating its superiority over competing approaches. Our code is publicly available at \url{https://github.com/mrflogs/ICLR24}.

arxiv情報

著者 Zhengbo Wang,Jian Liang,Lijun Sheng,Ran He,Zilei Wang,Tieniu Tan
発行日 2024-02-06 15:45:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク