Proto-CLIP: Vision-Language Prototypical Network for Few-Shot Learning

要約

私たちは、CLIP などの大規模視覚言語モデルを活用した、少数ショット学習のための新しいフレームワークを提案します。
数ショット学習のための単峰性プロトタイプ ネットワークを動機として、数ショット学習に画像プロトタイプとテキスト プロトタイプを利用する Proto-CLIP を紹介します。
具体的には、Proto-CLIP は、少数のショットの例を使用して、CLIP からの画像およびテキスト エンコーダの埋め込みを共同方式で適応させます。
2 つのエンコーダーからの埋め込みは、分類用の画像クラスのそれぞれのプロトタイプを計算するために使用されます。
適応中に、対応するクラスの画像とテキストのプロトタイプを調整することを提案します。
このような位置合わせは、両方のタイプのプロトタイプからの寄与が強化されるため、少数ショットの分類に有益です。
Proto-CLIP には、トレーニング不要のバリアントと微調整されたバリアントの両方があります。
私たちは、少数ショット学習のためのベンチマーク データセットと、現実世界でのロボット認識のための実験を実施することによって、私たちの方法の有効性を実証します。
プロジェクト ページは https://irvlutd.github.io/Proto-CLIP から入手できます。

要約(オリジナル)

We propose a novel framework for few-shot learning by leveraging large-scale vision-language models such as CLIP. Motivated by unimodal prototypical networks for few-shot learning, we introduce Proto-CLIP which utilizes image prototypes and text prototypes for few-shot learning. Specifically, Proto-CLIP adapts the image and text encoder embeddings from CLIP in a joint fashion using few-shot examples. The embeddings from the two encoders are used to compute the respective prototypes of image classes for classification. During adaptation, we propose aligning the image and text prototypes of the corresponding classes. Such alignment is beneficial for few-shot classification due to the reinforced contributions from both types of prototypes. Proto-CLIP has both training-free and fine-tuned variants. We demonstrate the effectiveness of our method by conducting experiments on benchmark datasets for few-shot learning, as well as in the real world for robot perception. The project page is available at https://irvlutd.github.io/Proto-CLIP

arxiv情報

著者 Jishnu Jaykumar P,Kamalesh Palanisamy,Yu-Wei Chao,Xinya Du,Yu Xiang
発行日 2024-07-14 16:47:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク