Efficient and Long-Tailed Generalization for Pre-trained Vision-Language Model

要約

CLIP のような事前トレーニングされた視覚言語モデルは、画像とテキストのマッチングを通じて強力なゼロショット推論能力を示し、さまざまな下流タスクにおいて強力な少数ショット学習者であることが証明されています。
ただし、現実のシナリオでは、CLIP をダウンストリーム タスクに適応させると、次のような課題に直面する可能性があります。1) データがロングテールのデータ分布を示す可能性があり、すべてのクラスに対して豊富なサンプルが存在しない可能性があります。
2) サンプルをまったく含まない新しいクラスを含む新たなタスクが存在する可能性があります。
これらを克服するために、効率的でロングテールの一般化を達成するための新しいフレームワークを提案します。これは Candle と呼ばれます。
トレーニング プロセス中に、プロトタイプの大きなマージンを促進し、基本クラス内および基本クラスと新しいクラス間の両方の不均衡を軽減するために、ロジット調整された損失を補償することを提案します。
効率的に適応するために、CLIP モデルをブラック ボックスとして扱い、抽出された特徴を活用して予測用の視覚的およびテキストのプロトタイプを取得します。
マルチモーダル情報を最大限に活用するために、両方のモダリティの機能を強化するクロスモーダルな注意も提案します。
効果的な一般化のために、トレーニング画像の不足を補うために新しいクラスの仮想プロトタイプを導入します。
Candle は、トレーニング時間を大幅に短縮しながら、11 の多様なデータセットに対する広範な実験を通じて最先端のパフォーマンスを達成し、私たちのアプローチの優位性を実証しています。
ソース コードは https://github.com/shijxcs/Candle で入手できます。

要約(オリジナル)

Pre-trained vision-language models like CLIP have shown powerful zero-shot inference ability via image-text matching and prove to be strong few-shot learners in various downstream tasks. However, in real-world scenarios, adapting CLIP to downstream tasks may encounter the following challenges: 1) data may exhibit long-tailed data distributions and might not have abundant samples for all the classes; 2) There might be emerging tasks with new classes that contain no samples at all. To overcome them, we propose a novel framework to achieve efficient and long-tailed generalization, which can be termed as Candle. During the training process, we propose compensating logit-adjusted loss to encourage large margins of prototypes and alleviate imbalance both within the base classes and between the base and new classes. For efficient adaptation, we treat the CLIP model as a black box and leverage the extracted features to obtain visual and textual prototypes for prediction. To make full use of multi-modal information, we also propose cross-modal attention to enrich the features from both modalities. For effective generalization, we introduce virtual prototypes for new classes to make up for their lack of training images. Candle achieves state-of-the-art performance over extensive experiments on 11 diverse datasets while substantially reducing the training time, demonstrating the superiority of our approach. The source code is available at https://github.com/shijxcs/Candle.

arxiv情報

著者 Jiang-Xin Shi,Chi Zhang,Tong Wei,Yu-Feng Li
発行日 2024-06-18 14:07:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク