要約
ビジョン変換器(ViT)の少数点学習能力は、大きな期待が寄せられているにもかかわらず、ほとんど研究されていません。本研究では、同じ少数ショット学習フレームワークである \~Meta-Baseline において、広く用いられている CNN 特徴抽出器を ViT モデルに置き換えると、少数ショット分類性能が著しく低下することを経験的に明らかにした。さらに、ViTは帰納的バイアスがないため、少数のラベル付き学習データしか利用できない少数ショット学習体制では、低適格なトークン依存関係を学習することが多く、これが上記の性能低下の大きな要因であることが我々の実証研究により示された。この問題を解決するために、我々はViTのためのシンプルかつ効果的な少数ショット学習フレームワーク、すなわちSelf-promoted sUpervisioN (SUN)を初めて提案する。SUNは、従来のグローバル意味学習のためのグローバルスーパービジョンに加えて、ViTの数ショット学習データセットに対する事前学習を行い、それを用いて各パッチトークンを案内するための個別位置特定スーパービジョンを生成する。この場所別監視は、ViTにどのパッチトークンが類似・非類似であるかを伝え、トークン依存学習を加速させる。さらに、各パッチトークンの局所的なセマンティクスをモデル化し、オブジェクトの接地と認識能力を向上させ、汎化可能なパターンの学習を支援する。1) 背景パッチをフィルタリングし、余分な背景クラスに割り当てる背景パッチフィルトレーション、2) 生成された局所監視の精度を維持しながらデータ補強のために十分な多様性を導入する空間整合補強、以上2つの技術を提案する。実験の結果、ViTを用いたSUNは、ViTを用いた他の少数点学習フレームワークを大きく上回り、CNNの最先端技術を超える性能を達成した最初のフレームワークであることが示された。
要約(オリジナル)
The few-shot learning ability of vision transformers (ViTs) is rarely investigated though heavily desired. In this work, we empirically find that with the same few-shot learning frameworks, \eg~Meta-Baseline, replacing the widely used CNN feature extractor with a ViT model often severely impairs few-shot classification performance. Moreover, our empirical study shows that in the absence of inductive bias, ViTs often learn the low-qualified token dependencies under few-shot learning regime where only a few labeled training data are available, which largely contributes to the above performance degradation. To alleviate this issue, for the first time, we propose a simple yet effective few-shot training framework for ViTs, namely Self-promoted sUpervisioN (SUN). Specifically, besides the conventional global supervision for global semantic learning SUN further pretrains the ViT on the few-shot learning dataset and then uses it to generate individual location-specific supervision for guiding each patch token. This location-specific supervision tells the ViT which patch tokens are similar or dissimilar and thus accelerates token dependency learning. Moreover, it models the local semantics in each patch token to improve the object grounding and recognition capability which helps learn generalizable patterns. To improve the quality of location-specific supervision, we further propose two techniques:~1) background patch filtration to filtrate background patches out and assign them into an extra background class; and 2) spatial-consistent augmentation to introduce sufficient diversity for data augmentation while keeping the accuracy of the generated local supervisions. Experimental results show that SUN using ViTs significantly surpasses other few-shot learning frameworks with ViTs and is the first one that achieves higher performance than those CNN state-of-the-arts.
arxiv情報
著者 | Bowen Dong,Pan Zhou,Shuicheng Yan,Wangmeng Zuo |
発行日 | 2022-06-09 05:12:46+00:00 |
arxivサイト | arxiv_id(pdf) |