MaxViT: Multi-Axis Vision Transformer

要約

トランスフォーマーは最近、コンピュータビジョンのコミュニティで大きな注目を集めている。しかし、画像サイズに対する自己注意メカニズムのスケーラビリティの欠如は、最先端のビジョンバックボーンにおける幅広い採用を制限してきた。本論文では、多軸注意と呼ぶ効率的でスケーラブルな注意モデルを紹介する。このモデルは、ブロックされたローカル注意と拡張されたグローバル注意の2つの側面から構成されている。これらの設計上の選択により、任意の入力解像度において、線形な複雑さのみでグローバル-ローカルの空間的相互作用が可能となる。また、私たちが提案する注意モデルと畳み込みを効果的に融合させた新しいアーキテクチャ要素を提示し、それに応じて、基本的な構成要素を複数のステージにわたって繰り返すだけで、MaxViTと呼ばれるシンプルな階層的ビジョンバックボーンを提案します。特に、MaxViTは、初期の高解像度ステージにおいても、ネットワーク全体を”見る”ことができる。我々は、このモデルの有効性を広範な視覚タスクで実証している。画像分類において、MaxViTは様々な設定において最先端の性能を発揮し、追加データなしで86.5%のImageNet-1Kトップ1精度、ImageNet-21K事前学習で88.7%のトップ1精度を達成した。また、MaxViTをバックボーンとして、下流タスクの物体検出や美的評価において良好な結果を得ることができました。また、提案したモデルがImageNet上で強力な生成モデル能力を発揮することを示し、ユニバーサルビジョンモジュールとしてのMaxViTブロックの優れたポテンシャルを実証しています。ソースコードと学習済みモデルは、https://github.com/google-research/maxvit で公開される予定です。

要約(オリジナル)

Transformers have recently gained significant attention in the computer vision community. However, the lack of scalability of self-attention mechanisms with respect to image size has limited their wide adoption in state-of-the-art vision backbones. In this paper we introduce an efficient and scalable attention model we call multi-axis attention, which consists of two aspects: blocked local and dilated global attention. These design choices allow global-local spatial interactions on arbitrary input resolutions with only linear complexity. We also present a new architectural element by effectively blending our proposed attention model with convolutions, and accordingly propose a simple hierarchical vision backbone, dubbed MaxViT, by simply repeating the basic building block over multiple stages. Notably, MaxViT is able to ”see” globally throughout the entire network, even in earlier, high-resolution stages. We demonstrate the effectiveness of our model on a broad spectrum of vision tasks. On image classification, MaxViT achieves state-of-the-art performance under various settings: without extra data, MaxViT attains 86.5% ImageNet-1K top-1 accuracy; with ImageNet-21K pre-training, our model achieves 88.7% top-1 accuracy. For downstream tasks, MaxViT as a backbone delivers favorable performance on object detection as well as visual aesthetic assessment. We also show that our proposed model expresses strong generative modeling capability on ImageNet, demonstrating the superior potential of MaxViT blocks as a universal vision module. The source code and trained models will be available at https://github.com/google-research/maxvit.

arxiv情報

著者 Zhengzhong Tu,Hossein Talebi,Han Zhang,Feng Yang,Peyman Milanfar,Alan Bovik,Yinxiao Li
発行日 2022-09-09 17:57:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク