MaxViT: Multi-Axis Vision Transformer

要約

トランスフォーマーは、最近、コンピューター ビジョン コミュニティで大きな注目を集めています。
ただし、画像サイズに関する自己注意メカニズムのスケーラビリティの欠如により、最先端のビジョンバックボーンでの幅広い採用が制限されています。
この論文では、多軸注意と呼ばれる効率的でスケーラブルな注意モデルを紹介します。これは、ブロックされたローカル注意と拡張されたグローバル注意の 2 つの側面で構成されます。
これらの設計上の選択により、線形の複雑さのみで、任意の入力解像度でグローバルとローカルの空間相互作用が可能になります。
また、提案した注意モデルを畳み込みと効果的にブレンドすることで新しいアーキテクチャ要素を提示し、それに応じて、基本的な構成要素を複数の段階で単純に繰り返すことにより、MaxViT と呼ばれる単純な階層型ビジョン バックボーンを提案します。
特に、MaxViT は、初期の高解像度段階であっても、ネットワーク全体をグローバルに「見る」ことができます。
幅広い視覚タスクでモデルの有効性を実証します。
画像分類では、MaxViT はさまざまな設定で最先端のパフォーマンスを実現します。追加データなしで、MaxViT は 86.5% の ImageNet-1K トップ 1 精度を達成します。
ImageNet-21K 事前トレーニングにより、モデルは 88.7% のトップ 1 精度を達成します。
バックボーンとしての MaxViT は、ダウンストリーム タスクの場合、オブジェクト検出と視覚的美的評価で良好なパフォーマンスを提供します。
また、提案したモデルが ImageNet で強力な生成モデリング機能を表現することも示し、ユニバーサル ビジョン モジュールとしての MaxViT ブロックの優れた可能性を示しています。
ソース コードとトレーニング済みモデルは、https://github.com/google-research/maxvit で入手できます。

要約(オリジナル)

Transformers have recently gained significant attention in the computer vision community. However, the lack of scalability of self-attention mechanisms with respect to image size has limited their wide adoption in state-of-the-art vision backbones. In this paper we introduce an efficient and scalable attention model we call multi-axis attention, which consists of two aspects: blocked local and dilated global attention. These design choices allow global-local spatial interactions on arbitrary input resolutions with only linear complexity. We also present a new architectural element by effectively blending our proposed attention model with convolutions, and accordingly propose a simple hierarchical vision backbone, dubbed MaxViT, by simply repeating the basic building block over multiple stages. Notably, MaxViT is able to ”see” globally throughout the entire network, even in earlier, high-resolution stages. We demonstrate the effectiveness of our model on a broad spectrum of vision tasks. On image classification, MaxViT achieves state-of-the-art performance under various settings: without extra data, MaxViT attains 86.5% ImageNet-1K top-1 accuracy; with ImageNet-21K pre-training, our model achieves 88.7% top-1 accuracy. For downstream tasks, MaxViT as a backbone delivers favorable performance on object detection as well as visual aesthetic assessment. We also show that our proposed model expresses strong generative modeling capability on ImageNet, demonstrating the superior potential of MaxViT blocks as a universal vision module. The source code and trained models will be available at https://github.com/google-research/maxvit.

arxiv情報

著者 Zhengzhong Tu,Hossein Talebi,Han Zhang,Feng Yang,Peyman Milanfar,Alan Bovik,Yinxiao Li
発行日 2022-08-25 08:35:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク