SPTNet: An Efficient Alternative Framework for Generalized Category Discovery with Spatial Prompt Tuning

要約

Generalized Category Discovery (GCD) は、ラベル付きの「見た」クラス画像のセットから知識を移すことによって、ラベルのない画像を「見た」クラスと「見えない」クラスの両方から分類することを目的としています。
既存の GCD アプローチの重要なテーマは、大規模な事前トレーニング済みモデルを GCD タスクに適応させることです。
ただし、別の観点としては、事前トレーニングされたモデルとの整合性を高めるためにデータ表現自体を調整するというものがあります。
そのため、この論文では、モデル パラメーター (つまり、モデル微調整) とデータ パラメーター (つまり、即時学習) を繰り返し最適化する SPTNet と呼ばれる 2 段階の適応アプローチを紹介します。
さらに、画像データの空間特性を考慮した新しい空間プロンプトチューニング法(SPT)を提案します。これにより、この方法が、目に見えるクラスと見えないクラスの間で転送されるオブジェクト部分によりよく焦点を合わせることができます。
当社は標準ベンチマークで SPTNet を徹底的に評価し、当社のメソッドが既存の GCD メソッドよりも優れていることを実証します。
特に、私たちの方法は SSB で 61.4% の平均精度を達成しており、これまでの最先端の方法を約 10% 上回っています。
私たちの方法では、バックボーン アーキテクチャのパラメータの 0.117% にすぎない追加パラメータが得られるため、この改善は特に顕著です。
プロジェクトページ: https://visual-ai.github.io/sptnet

要約(オリジナル)

Generalized Category Discovery (GCD) aims to classify unlabelled images from both `seen’ and `unseen’ classes by transferring knowledge from a set of labelled `seen’ class images. A key theme in existing GCD approaches is adapting large-scale pre-trained models for the GCD task. An alternate perspective, however, is to adapt the data representation itself for better alignment with the pre-trained model. As such, in this paper, we introduce a two-stage adaptation approach termed SPTNet, which iteratively optimizes model parameters (i.e., model-finetuning) and data parameters (i.e., prompt learning). Furthermore, we propose a novel spatial prompt tuning method (SPT) which considers the spatial property of image data, enabling the method to better focus on object parts, which can transfer between seen and unseen classes. We thoroughly evaluate our SPTNet on standard benchmarks and demonstrate that our method outperforms existing GCD methods. Notably, we find our method achieves an average accuracy of 61.4% on the SSB, surpassing prior state-of-the-art methods by approximately 10%. The improvement is particularly remarkable as our method yields extra parameters amounting to only 0.117% of those in the backbone architecture. Project page: https://visual-ai.github.io/sptnet.

arxiv情報

著者 Hongjun Wang,Sagar Vaze,Kai Han
発行日 2024-03-20 15:41:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク