要約
トランスフォーマーはコンピュータビジョンのタスクにおいて大きな可能性を示している。一般的には、注意に基づくトークンミキサーモジュールが、その能力に最も貢献していると考えられています。しかし、最近の研究では、Transformersの注意に基づくモジュールは空間MLPで置き換えることができ、得られたモデルは依然としてかなり良い性能を発揮することが示されている。この観察に基づき、我々は、特定のトークンミキサーモジュールではなく、Transformersの一般的なアーキテクチャがモデルの性能により本質的であると仮定する。これを検証するために、我々はTransformersの注意モジュールを恥ずかしいほど単純な空間プーリング演算子で意図的に置き換え、基本的なトークン混合のみを実施する。その結果、PoolFormerと呼ばれるこのモデルは、複数のコンピュータビジョンタスクにおいて競争力のある性能を達成することが分かった。例えば、ImageNet-1Kにおいて、PoolFormerは82.1%のトップ1精度を達成し、35%/52%少ないパラメータと50%/62%少ないMACで、よく調整されたVision Transformer/MLPに似たベースラインDeiT-B/ResMLP-B24を0.3%/1.1% 精度で上回ります。PoolFormerの有効性は我々の仮説を検証し、トークン混合器を指定せずにTransformerを抽象化した一般的なアーキテクチャである「MetaFormer」の概念を開始するよう促すものである。広範な実験に基づき、我々はMetaFormerがビジョンタスクにおいて最近のTransformerやMLPのようなモデルの優れた結果を達成するためのキープレイヤーであることを主張する。この研究は、トークン混合器モジュールに焦点を当てるのではなく、MetaFormerの改良に特化したより多くの将来の研究を求めている。さらに、我々の提案するPoolFormerは、将来のMetaFormerアーキテクチャ設計のための出発点ベースラインとして機能することができる。コードは https://github.com/sail-sg/poolformer で公開されています。
要約(オリジナル)
Transformers have shown great potential in computer vision tasks. A common belief is their attention-based token mixer module contributes most to their competence. However, recent works show the attention-based module in Transformers can be replaced by spatial MLPs and the resulted models still perform quite well. Based on this observation, we hypothesize that the general architecture of the Transformers, instead of the specific token mixer module, is more essential to the model’s performance. To verify this, we deliberately replace the attention module in Transformers with an embarrassingly simple spatial pooling operator to conduct only basic token mixing. Surprisingly, we observe that the derived model, termed as PoolFormer, achieves competitive performance on multiple computer vision tasks. For example, on ImageNet-1K, PoolFormer achieves 82.1% top-1 accuracy, surpassing well-tuned Vision Transformer/MLP-like baselines DeiT-B/ResMLP-B24 by 0.3%/1.1% accuracy with 35%/52% fewer parameters and 50%/62% fewer MACs. The effectiveness of PoolFormer verifies our hypothesis and urges us to initiate the concept of ‘MetaFormer’, a general architecture abstracted from Transformers without specifying the token mixer. Based on the extensive experiments, we argue that MetaFormer is the key player in achieving superior results for recent Transformer and MLP-like models on vision tasks. This work calls for more future research dedicated to improving MetaFormer instead of focusing on the token mixer modules. Additionally, our proposed PoolFormer could serve as a starting baseline for future MetaFormer architecture design. Code is available at https://github.com/sail-sg/poolformer.
arxiv情報
著者 | Weihao Yu,Mi Luo,Pan Zhou,Chenyang Si,Yichen Zhou,Xinchao Wang,Jiashi Feng,Shuicheng Yan |
発行日 | 2022-07-04 17:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |