PrototypeFormer: Learning to Explore Prototype Relationships for Few-shot Image Classification

要約

少数ショット画像分類は、新しいクラスの限られたサンプルで分類パフォーマンスが低いという課題に対処するため、かなりの注目を集めています。
しかし、多くの研究では、この問題に対処するために、洗練された学習戦略と多様な特徴抽出方法が採用されています。
この論文では、PrototypeFormer と呼ばれる手法を提案します。これは、プロトタイプの関係を探索することで、従来の少数ショット画像分類アプローチを大幅に進歩させることを目的としています。
具体的には、トランスフォーマー アーキテクチャを利用してプロトタイプ抽出モジュールを構築し、少数ショット分類でより識別力のあるクラス表現を抽出することを目指しています。
さらに、モデルのトレーニング プロセス中に、少数ショットの学習シナリオでプロトタイプの特徴を最適化するための、対照的な学習ベースの最適化アプローチを提案します。
そのシンプルさにもかかわらず、この方法は余分な機能がなく、非常に優れたパフォーマンスを発揮します。
私たちは、いくつかの一般的な少数ショット画像分類ベンチマーク データセットで私たちのアプローチを実験しました。その結果、私たちの方法が現在のすべての最先端の方法よりも優れていることがわかりました。
特に、私たちの方法は、miniImageNet の 5 方向 5 ショットおよび 5 方向 1 ショットタスクで 97.07% および 90.88% を達成し、それぞれ 7.27% および 8.72% の精度という最先端の結果を上回っています。

コードは後ほど公開します。

要約(オリジナル)

Few-shot image classification has received considerable attention for addressing the challenge of poor classification performance with limited samples in novel classes. However, numerous studies have employed sophisticated learning strategies and diversified feature extraction methods to address this issue. In this paper, we propose our method called PrototypeFormer, which aims to significantly advance traditional few-shot image classification approaches by exploring prototype relationships. Specifically, we utilize a transformer architecture to build a prototype extraction module, aiming to extract class representations that are more discriminative for few-shot classification. Additionally, during the model training process, we propose a contrastive learning-based optimization approach to optimize prototype features in few-shot learning scenarios. Despite its simplicity, the method performs remarkably well, with no bells and whistles. We have experimented with our approach on several popular few-shot image classification benchmark datasets, which shows that our method outperforms all current state-of-the-art methods. In particular, our method achieves 97.07% and 90.88% on 5-way 5-shot and 5-way 1-shot tasks of miniImageNet, which surpasses the state-of-the-art results with accuracy of 7.27% and 8.72%, respectively. The code will be released later.

arxiv情報

著者 Feihong He,Gang Li,Lingyu Si,Leilei Yan,Fanzhang Li,Fuchun Sun
発行日 2023-10-05 12:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク