Sparse Spatial Transformers for Few-Shot Learning

要約

タイトル:Few-Shot Learningのためのスパース空間変換

要約:

– 限られたデータから学習することは、訓練されたモデルの一般化が悪くなるため、困難である。
– 従来のグローバルプール表現は、有用なローカル情報を失う可能性があるため、問題がある。
– 多くのFew-Shot Learningの手法が、深い記述子を使用してピクセルレベルのメトリックを学習することで、この問題に対応している。
– しかしながら、深い記述子を特徴表現として使用することは、画像の文脈的情報を失う可能性がある。
– さらに、これらのほとんどの方法は支援セットの各クラスを独立に扱うため、識別情報やタスク特有の埋め込みを十分に使用できない。
– この論文では、タスクに関連する特徴を見つけ、タスクに関係のない特徴を抑制するための新しいトランスフォーマーベースのニューラルネットワークアーキテクチャである“Sparse Spatial Transformers(SSFormers)”を提案する。
– 特に、まず、異なるサイズのいくつかの画像パッチに入力画像を分割し、密集したローカル特徴を取得する。
– これらの特徴は、ローカル情報を表現しながら、文脈的な情報を保持する。
– 次に、SSFormersは、「疎な空間変換層」を提供し、クエリ画像と完全な支援セットの間で空間的な対応関係を見つけ、タスクに関連する画像パッチを選択し、タスクに関係のない画像パッチを抑制する。
– 最後に、画像パッチマッチングモジュールを使用して、密なローカル表現の距離を計算し、クエリ画像が支援セットのどのカテゴリに属するかを決定することを提案する。
– 人気のあるFew-Shot Learningベンチマークでの広範な実験により、当社の手法が最先端の手法よりも優れていることが示されている。当社のソースコードは、https://github.com/chenhaoxing/ssformersで利用可能である。

要約(オリジナル)

Learning from limited data is challenging because data scarcity leads to a poor generalization of the trained model. A classical global pooled representation will probably lose useful local information. Many few-shot learning methods have recently addressed this challenge using deep descriptors and learning a pixel-level metric. However, using deep descriptors as feature representations may lose image contextual information. Moreover, most of these methods independently address each class in the support set, which cannot sufficiently use discriminative information and task-specific embeddings. In this paper, we propose a novel transformer-based neural network architecture called sparse spatial transformers (SSFormers), which finds task-relevant features and suppresses task-irrelevant features. Particularly, we first divide each input image into several image patches of different sizes to obtain dense local features. These features retain contextual information while expressing local information. Then, a sparse spatial transformer layer is proposed to find spatial correspondence between the query image and the full support set to select task-relevant image patches and suppress task-irrelevant image patches. Finally, we propose using an image patch-matching module to calculate the distance between dense local representations, thus determining which category the query image belongs to in the support set. Extensive experiments on popular few-shot learning benchmarks demonstrate the superiority of our method over state-of-the-art methods. Our source code is available at \url{https://github.com/chenhaoxing/ssformers}.

arxiv情報

著者 Haoxing Chen,Huaxiong Li,Yaohui Li,Chunlin Chen
発行日 2023-05-10 01:53:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク