SP-ViT: Learning 2D Spatial Priors for Vision Transformers

要約

最近、トランスフォーマーは画像分類において大きな可能性を示し、ImageNetベンチマークで最先端の結果を確立しました。
ただし、CNNと比較すると、トランスフォーマーは収束が遅く、空間誘導バイアスがないため、低データ領域では過剰適合する傾向があります。
入力画像の2D構造が変圧器で十分に保存されていないため、このような空間誘導バイアスは特に有益です。
この作品では、ビジョントランスに合わせたバニラ自己注意(SA)の新しい変種である空間的事前強化自己注意(SP-SA)を紹介します。
Spatial Priors(SP)は、空間関係の特定のグループを強調する、提案された誘導バイアスのファミリーです。
ハードコーディングされたローカル領域のみに焦点を当てることを余儀なくされる畳み込み誘導バイアスとは異なり、提案されたSPはモデル自体によって学習され、さまざまな空間関係が考慮されます。
具体的には、注意スコアは、各頭の特定の種類の空間的関係に重点を置いて計算され、そのような学習された空間的焦点は互いに補完することができます。
SP-SAに基づいて、SP-ViTファミリを提案します。これは、同様のGFlopsまたはパラメータを持つ他のViTモデルよりも一貫して優れています。
当社の最大のモデルSP-ViT-Lは、以前の最先端モデル(SP-ViT-Lの場合は150M)と比較して、パラメーターの数をほぼ50%削減し、記録的な86.3%のトップ1精度を達成します。
対CaiT-M-36の271M)224×224でトレーニングされ、追加データなしで384×384の解像度で微調整されたすべてのImageNet-1Kモデルの中で。

要約(オリジナル)

Recently, transformers have shown great potential in image classification and established state-of-the-art results on the ImageNet benchmark. However, compared to CNNs, transformers converge slowly and are prone to overfitting in low-data regimes due to the lack of spatial inductive biases. Such spatial inductive biases can be especially beneficial since the 2D structure of an input image is not well preserved in transformers. In this work, we present Spatial Prior-enhanced Self-Attention (SP-SA), a novel variant of vanilla Self-Attention (SA) tailored for vision transformers. Spatial Priors (SPs) are our proposed family of inductive biases that highlight certain groups of spatial relations. Unlike convolutional inductive biases, which are forced to focus exclusively on hard-coded local regions, our proposed SPs are learned by the model itself and take a variety of spatial relations into account. Specifically, the attention score is calculated with emphasis on certain kinds of spatial relations at each head, and such learned spatial foci can be complementary to each other. Based on SP-SA we propose the SP-ViT family, which consistently outperforms other ViT models with similar GFlops or parameters. Our largest model SP-ViT-L achieves a record-breaking 86.3% Top-1 accuracy with a reduction in the number of parameters by almost 50% compared to previous state-of-the-art model (150M for SP-ViT-L vs 271M for CaiT-M-36) among all ImageNet-1K models trained on 224×224 and fine-tuned on 384×384 resolution w/o extra data.

arxiv情報

著者 Yuxuan Zhou,Wangmeng Xiang,Chao Li,Biao Wang,Xihan Wei,Lei Zhang,Margret Keuper,Xiansheng Hua
発行日 2022-06-15 16:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4 パーマリンク