SpectFormer: Frequency and Attention is what you need in a Vision Transformer

要約

タイトル:SpectFormer:周波数と注意がビジョンTransformerに必要なもの

要約:
– ビジョントランスフォーマは、画像認識タスクに成功しています。
– テキストモデルの元の作品に類似した、マルチヘッドセルフアテンションベース(ViT、DeITなど)または最近はスペクトル層ベース(Fnet、GFNet、AFNOなど)があります。
– スペクトルとマルチヘッドアテンションの両方が重要な役割を果たすと仮定します。
– スペクトルとマルチヘッドアテンション層を組み合わせたSpectformerアーキテクチャを提案し、その特徴表現は他のトランスフォーマ表現よりも良好なパフォーマンスを発揮します。
– たとえば、GFNet-HとLiTに比べてImageNetでトップ1精度を2%向上させ、SpectFormer-SはImageNet-1Kで84.25%のトップ1精度を達成します。
– Spectformer-Lは、同等のベースバージョンのトランスフォーマに対して、85.7%のトップ1精度を達成します。
– CIFAR-10、CIFAR-100、Oxford-IIIT-flower、およびStandford Carデータセットなどの標準データセット上の転移学習においても、合理的な結果を得ることができます。
– したがって、周波数とアテンション層の組み合わせは、ビジョントランスフォーマにとって必要なものであると考えられます。

要約(オリジナル)

Vision transformers have been applied successfully for image recognition tasks. There have been either multi-headed self-attention based (ViT \cite{dosovitskiy2020image}, DeIT, \cite{touvron2021training}) similar to the original work in textual models or more recently based on spectral layers (Fnet\cite{lee2021fnet}, GFNet\cite{rao2021global}, AFNO\cite{guibas2021efficient}). We hypothesize that both spectral and multi-headed attention plays a major role. We investigate this hypothesis through this work and observe that indeed combining spectral and multi-headed attention layers provides a better transformer architecture. We thus propose the novel Spectformer architecture for transformers that combines spectral and multi-headed attention layers. We believe that the resulting representation allows the transformer to capture the feature representation appropriately and it yields improved performance over other transformer representations. For instance, it improves the top-1 accuracy by 2\% on ImageNet compared to both GFNet-H and LiT. SpectFormer-S reaches 84.25\% top-1 accuracy on ImageNet-1K (state of the art for small version). Further, Spectformer-L achieves 85.7\% that is the state of the art for the comparable base version of the transformers. We further ensure that we obtain reasonable results in other scenarios such as transfer learning on standard datasets such as CIFAR-10, CIFAR-100, Oxford-IIIT-flower, and Standford Car datasets. We then investigate its use in downstream tasks such of object detection and instance segmentation on the MS-COCO dataset and observe that Spectformer shows consistent performance that is comparable to the best backbones and can be further optimized and improved. Hence, we believe that combined spectral and attention layers are what are needed for vision transformers.

arxiv情報

著者 Badri N. Patro,Vinay P. Namboodiri,Vijay Srinivas Agneeswaran
発行日 2023-04-13 12:27:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク