Neighborhood Attention Transformer

要約

我々は、視覚のための最初の効率的でスケーラブルなスライディングウィンドウ型注意メカニズムである近傍注意(NA)を発表する。NAはピクセル単位の操作であり、自己注意(SA)を最近接ピクセルに局在化させるため、SAの2次的複雑性に比べ、線形的な時間および空間複雑性を享受している。また、スウィン・トランスフォーマーのウィンドウ自己注視(WSA)とは異なり、並進等価性が保たれる。我々は、効率的なC++およびCUDAカーネルを備えたPythonパッケージであるNATTEN(Neighborhood Attention Extension)を開発し、SwinのWSAよりも最大40%高速で、最大25%少ないメモリを使用してNAを実行することを可能にする。さらに、画像分類とダウンストリームビジョンの性能を高める、NAに基づく新しい階層型変換器の設計であるNeighborhood Attention Transformer(NAT)を紹介します。NATの実験結果は、ImageNetで83.2%のトップ1精度、MS-COCOで51.4%のmAP、ADE20Kで48.4%のmIoUに達し、これは同サイズのSwinモデルに対してImageNetで1.9%、COCO mAPで1%、ADE20K mIoUで2%の改善となっており競争力を持っています。スライディングウィンドウアテンションに基づくより多くの研究をサポートするために、我々は我々のプロジェクトをオープンソース化し、我々のチェックポイントを公開しています:https://github.com/SHI-Labs/Neighborhood-Attention-Transformer.

要約(オリジナル)

We present Neighborhood Attention (NA), the first efficient and scalable sliding-window attention mechanism for vision. NA is a pixel-wise operation, localizing self attention (SA) to the nearest neighboring pixels, and therefore enjoys a linear time and space complexity compared to the quadratic complexity of SA. The sliding-window pattern allows NA’s receptive field to grow without needing extra pixel shifts, and preserves translational equivariance, unlike Swin Transformer’s Window Self Attention (WSA). We develop NATTEN (Neighborhood Attention Extension), a Python package with efficient C++ and CUDA kernels, which allows NA to run up to 40% faster than Swin’s WSA while using up to 25% less memory. We further present Neighborhood Attention Transformer (NAT), a new hierarchical transformer design based on NA that boosts image classification and downstream vision performance. Experimental results on NAT are competitive; NAT-Tiny reaches 83.2% top-1 accuracy on ImageNet, 51.4% mAP on MS-COCO and 48.4% mIoU on ADE20K, which is 1.9% ImageNet accuracy, 1.0% COCO mAP, and 2.6% ADE20K mIoU improvement over a Swin model with similar size. To support more research based on sliding-window attention, we open source our project and release our checkpoints at: https://github.com/SHI-Labs/Neighborhood-Attention-Transformer.

arxiv情報

著者 Ali Hassani,Steven Walton,Jiachen Li,Shen Li,Humphrey Shi
発行日 2022-11-07 18:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク