CLIP Adaptation by Intra-modal Overlap Reduction

要約

事前トレーニングされた基本的な CLIP モデルを少数ショット分類に適応させるために、数多くの方法が提案されています。
CLIP は大規模なコーパスでトレーニングされるため、少数ショット分類への適応を通じて適切に一般化されます。
この研究では、埋め込み表現の観点から画像空間内のモーダル内オーバーラップを分析します。
私たちの分析では、対比学習により、CLIP モデルからの埋め込みは、対になった例と対になっていない例の間の画像空間内で高いコサイン類似度分布の重複を示し、画像空間内の類似性に依存する少数ショットのトレーニング不要の分類法のパフォーマンスに影響を与えることが示されました。
彼らの予言。
モーダル内オーバーラップに取り組むために、Google Open Images データセットからのサンプルの汎用セットで軽量アダプターをトレーニングすることを提案します。これにより、数ショットのトレーニング不要の分類の精度が向上することが実証されています。
私たちは広範な実証分析を通じて私たちの貢献を検証し、モーダル内重複の削減が、a) 多数の標準データセットでのパフォーマンスの向上、b) 分布シフトに対するロバスト性の向上、c) 特徴の分散が大きくなり、下流の特徴をより識別しやすくすることにつながることを実証します。
タスク。

要約(オリジナル)

Numerous methods have been proposed to adapt a pre-trained foundational CLIP model for few-shot classification. As CLIP is trained on a large corpus, it generalises well through adaptation to few-shot classification. In this work, we analyse the intra-modal overlap in image space in terms of embedding representation. Our analysis shows that, due to contrastive learning, embeddings from CLIP model exhibit high cosine similarity distribution overlap in the image space between paired and unpaired examples affecting the performance of few-shot training-free classification methods which rely on similarity in the image space for their predictions. To tackle intra-modal overlap we propose to train a lightweight adapter on a generic set of samples from the Google Open Images dataset demonstrating that this improves accuracy for few-shot training-free classification. We validate our contribution through extensive empirical analysis and demonstrate that reducing the intra-modal overlap leads to a) improved performance on a number of standard datasets, b) increased robustness to distribution shift and c) higher feature variance rendering the features more discriminative for downstream tasks.

arxiv情報

著者 Alexey Kravets,Vinay Namboodiri
発行日 2024-09-17 16:40:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク