Semantic Prompt for Few-Shot Image Recognition

要約

新しいクラスを認識するために提供される例はごくわずかであるため、少数ショット学習は困難な問題です。
最近のいくつかの研究では、追加のセマンティック情報を利用しています。
セマンティック プロトタイプとビジュアル プロトタイプを組み合わせることで、まれなサンプルの問題に対処するための、クラス名のテキスト埋め込み。
ただし、これらの方法は、まれなサポート サンプルから学習した偽の視覚的特徴に依然として悩まされており、その結果、利点は限られています。
この論文では、少数ショット学習のための新しいセマンティック プロンプト (SP) アプローチを提案します。
分類子を修正するためのセマンティック情報の単純な利用の代わりに、視覚的特徴抽出ネットワークを適応的に調整するためのプロンプトとしてセマンティック情報を活用することを検討します。
具体的には、特徴抽出器にセマンティック プロンプトを挿入するための 2 つの補完的なメカニズムを設計します。
チャネル次元。
これらの 2 つのメカニズムを組み合わせることで、特徴エクストラクタは、クラス固有の特徴に対応する優れた機能を提供し、わずかなサポート サンプルでより一般化された画像表現を取得します。
4 つのデータセットに対する大規模な実験を通じて、提案されたアプローチは有望な結果を達成し、1 ショット学習の精度を平均で 3.67% 向上させました。

要約(オリジナル)

Few-shot learning is a challenging problem since only a few examples are provided to recognize a new class. Several recent studies exploit additional semantic information, e.g. text embeddings of class names, to address the issue of rare samples through combining semantic prototypes with visual prototypes. However, these methods still suffer from the spurious visual features learned from the rare support samples, resulting in limited benefits. In this paper, we propose a novel Semantic Prompt (SP) approach for few-shot learning. Instead of the naive exploitation of semantic information for remedying classifiers, we explore leveraging semantic information as prompts to tune the visual feature extraction network adaptively. Specifically, we design two complementary mechanisms to insert semantic prompts into the feature extractor: one is to enable the interaction between semantic prompts and patch embeddings along the spatial dimension via self-attention, another is to supplement visual features with the transformed semantic prompts along the channel dimension. By combining these two mechanisms, the feature extractor presents a better ability to attend to the class-specific features and obtains more generalized image representations with merely a few support samples. Through extensive experiments on four datasets, the proposed approach achieves promising results, improving the 1-shot learning accuracy by 3.67% on average.

arxiv情報

著者 Wentao Chen,Chenyang Si,Zhang Zhang,Liang Wang,Zilei Wang,Tieniu Tan
発行日 2023-03-24 16:32:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク