要約
Contrastive Language-Image Pre-training (CLIP) は、強力なゼロショット学習パフォーマンスを示しました。
少数ショット学習は、各クラスで少数の画像、別名「少数ショット」を与えることによって、CLIP の転送機能をさらに強化することを目的としています。
既存のメソッドのほとんどは、学習可能なプロンプトまたはアダプターを組み込んで少数のショットから暗黙的に学習するか、推論用のキャッシュ モデルにそれらを明示的に埋め込みます。
ただし、少数のショットの狭い分布には不完全なクラス情報が含まれることが多く、誤分類のリスクが高い偏った視覚的知識につながります。
この問題に取り組むために、最近の方法では、生成モデルや追加のデータベースによって視覚的知識を補うことが提案されていますが、これにはコストと時間がかかる可能性があります。
この論文では、補助データや合成データにアクセスせずに、ラベルのないサンプルを適切に活用することで視覚的知識を補完する反復視覚的知識補完 (KCL) 方法を提案します。
具体的には、KCL はまず、ラベルのないサンプルと各カテゴリ間の類似性を測定します。
次に、各カテゴリに対して最高の信頼度を持つサンプルが選択され、設計された信頼基準によって収集されます。
最後に、収集されたサンプルはラベル付きサンプルとして扱われ、いくつかのショットに追加されて、残りのラベルなしサンプルを共同で再推定します。
上記の手順は一定回数繰り返され、収束するまでサンプルが収集され、進歩的で堅牢な知識完了プロセスが保証されます。
11 のベンチマーク データセットに対する広範な実験により、少数ショット学習設定とゼロショット学習設定の両方で、プラグ アンド プレイ モジュールとしての KCL の有効性と効率性が実証されました。
コードは https://github.com/Mark-Sky/KCL で入手できます。
要約(オリジナル)
Contrastive Language-Image Pre-training (CLIP) has shown powerful zero-shot learning performance. Few-shot learning aims to further enhance the transfer capability of CLIP by giving few images in each class, aka ‘few shots’. Most existing methods either implicitly learn from the few shots by incorporating learnable prompts or adapters, or explicitly embed them in a cache model for inference. However, the narrow distribution of few shots often contains incomplete class information, leading to biased visual knowledge with high risk of misclassification. To tackle this problem, recent methods propose to supplement visual knowledge by generative models or extra databases, which can be costly and time-consuming. In this paper, we propose an Iterative Visual Knowledge CompLetion (KCL) method to complement visual knowledge by properly taking advantages of unlabeled samples without access to any auxiliary or synthetic data. Specifically, KCL first measures the similarities between unlabeled samples and each category. Then, the samples with top confidence to each category is selected and collected by a designed confidence criterion. Finally, the collected samples are treated as labeled ones and added to few shots to jointly re-estimate the remaining unlabeled ones. The above procedures will be repeated for a certain number of iterations with more and more samples being collected until convergence, ensuring a progressive and robust knowledge completion process. Extensive experiments on 11 benchmark datasets demonstrate the effectiveness and efficiency of KCL as a plug-and-play module under both few-shot and zero-shot learning settings. Code is available at https://github.com/Mark-Sky/KCL.
arxiv情報
著者 | Yaohui Li,Qifeng Zhou,Haoxing Chen,Jianbing Zhang,Xinyu Dai,Hao Zhou |
発行日 | 2024-04-15 13:30:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google