Mining Open Semantics from CLIP: A Relation Transition Perspective for Few-Shot Learning

要約

Contrastive Vision-Language Pre-training(CLIP) は、優れたゼロショット機能を実証します。
少数の例で下流タスクへの CLIP の適応を改善する鍵は、CLIP に埋め込まれた有用な知識を効果的にモデル化して伝達する方法にあります。
以前の研究では、通常、限られた視覚サンプルと近いセットのセマンティクス (つまり、下流タスクのターゲット カテゴリ セット内) に基づいて知識をマイニングしていました。
ただし、整列された CLIP 画像/テキスト エンコーダには、視覚的特徴とほぼ無限のオープン セマンティクスとの間の豊富な関係が含まれており、これは少数ショットの学習に役立つ可能性がありますが、未調査のままです。
この論文では、オープン セマンティクスをアンカーとしてマイニングし、画像とアンカーの関係から画像とターゲットの関係への関係遷移を実行して予測を行うことを提案します。
具体的には、視覚的特徴を「クエリ」、アンカーのテキスト特徴を「キー」、アンカークラスとターゲットクラスのテキスト特徴間の類似度行列を「値」とするトランスフォーマーモジュールを採用します。
このように、このような変換モジュールの出力は、画像とターゲット カテゴリの間の関係、つまり分類予測を表します。
オープン セマンティクスを手動で選択することを避けるために、入力テキスト埋め込みの [CLASS] トークンを学習可能にします。
私たちは 11 の代表的な分類データセットに対して広範な実験を行っています。
結果は、私たちの方法が、少数ショットの分類設定を考慮した以前の最先端技術に対して有利に機能することを示しています。

要約(オリジナル)

Contrastive Vision-Language Pre-training(CLIP) demonstrates impressive zero-shot capability. The key to improve the adaptation of CLIP to downstream task with few exemplars lies in how to effectively model and transfer the useful knowledge embedded in CLIP. Previous work mines the knowledge typically based on the limited visual samples and close-set semantics (i.e., within target category set of downstream task). However, the aligned CLIP image/text encoders contain abundant relationships between visual features and almost infinite open semantics, which may benefit the few-shot learning but remains unexplored. In this paper, we propose to mine open semantics as anchors to perform a relation transition from image-anchor relationship to image-target relationship to make predictions. Specifically, we adopt a transformer module which takes the visual feature as ‘Query’, the text features of the anchors as ‘Key’ and the similarity matrix between the text features of anchor and target classes as ‘Value’. In this way, the output of such a transformer module represents the relationship between the image and target categories, i.e., the classification predictions. To avoid manually selecting the open semantics, we make the [CLASS] token of input text embedding learnable. We conduct extensive experiments on eleven representative classification datasets. The results show that our method performs favorably against previous state-of-the-arts considering few-shot classification settings.

arxiv情報

著者 Cilin Yan,Haochen Wang,Xiaolong Jiang,Yao Hu,Xu Tang,Guoliang Kang,Efstratios Gavves
発行日 2024-06-28 11:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク