SpectFormer: Frequency and Attention is what you need in a Vision Transformer

要約

タイトル:SpectFormer:ビジョントランスフォーマーにおいて周波数と注意が重要であること

要約:

– ビジョントランスフォーマーは、画像認識タスクに成功裏に適用されている
– マルチヘッド自己注意ベース(ViT、DeITなど)または最近ではスペクトル層に基づく(Fnet、GFNet、AFNOなど)
– スペクトルとマルチヘッドの両方が重要であるという仮説を検証
– SpectFormerアーキテクチャを提案。スペクトラルとマルチヘッドの注意機構を組み合わせたもので、特徴表現を適切にキャプチャして他のトランスフォーマーアーキテクチャよりも性能を向上させました。
– SpectFormer-SはImageNet-1Kで84.25%のトップ1の精度を達成し、小規模版における最新の状態になります。
– Spectformer-Lは、Transformersの比較的大きいバージョンの最新の状態である85.7%を達成しました。
– 他のシナリオでも合理的な結果を得ることができる。詳しくは、CIFAR-10、CIFAR-100、Oxford-IIIT-flower、およびStandford Carのような標準的なデータセットにおける転移学習において、合理的な結果を得ることができました。
– さらに、MS-COCOデータセット上のオブジェクト検出およびインスタンスセグメンテーションのような下流タスクにおける使用を調査し、SpectFormerが最高のバックボーンと比較可能な一貫した性能を示すことができ、さらに最適化および改善することができると考えられます。

要約(オリジナル)

Vision transformers have been applied successfully for image recognition tasks. There have been either multi-headed self-attention based (ViT \cite{dosovitskiy2020image}, DeIT, \cite{touvron2021training}) similar to the original work in textual models or more recently based on spectral layers (Fnet\cite{lee2021fnet}, GFNet\cite{rao2021global}, AFNO\cite{guibas2021efficient}). We hypothesize that both spectral and multi-headed attention plays a major role. We investigate this hypothesis through this work and observe that indeed combining spectral and multi-headed attention layers provides a better transformer architecture. We thus propose the novel Spectformer architecture for transformers that combines spectral and multi-headed attention layers. We believe that the resulting representation allows the transformer to capture the feature representation appropriately and it yields improved performance over other transformer representations. For instance, it improves the top-1 accuracy by 2\% on ImageNet compared to both GFNet-H and LiT. SpectFormer-S reaches 84.25\% top-1 accuracy on ImageNet-1K (state of the art for small version). Further, Spectformer-L achieves 85.7\% that is the state of the art for the comparable base version of the transformers. We further ensure that we obtain reasonable results in other scenarios such as transfer learning on standard datasets such as CIFAR-10, CIFAR-100, Oxford-IIIT-flower, and Standford Car datasets. We then investigate its use in downstream tasks such of object detection and instance segmentation on the MS-COCO dataset and observe that Spectformer shows consistent performance that is comparable to the best backbones and can be further optimized and improved. Hence, we believe that combined spectral and attention layers are what are needed for vision transformers.

arxiv情報

著者 Badri N. Patro,Vinay P. Namboodiri,Vijay Srinivas Agneeswaran
発行日 2023-04-14 22:20:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク