The Linear Attention Resurrection in Vision Transformer

要約

Vision Transformers(VITS)は最近、コンピュータービジョンを席巻しました。
ただし、Vitsの根底にあるSoftMaxの注意は、時間と記憶の2次複雑さを伴い、高解像度画像へのVITの適用を妨げます。
注意設計を再検討し、既存の方法のようなグローバルな表現をキャプチャするというVITの中核的な利点を犠牲にしない制限に対処するための線形注意方法を提案します(例:SWINのローカルウィンドウの注意)。
さらに、線形注意とソフトマックスの注意の重要な違いを調査します。
私たちの経験的結果は、線形注意には注意マトリックスの分布を集中する基本的な特性がないことを示唆しています。
この観察に触発されて、線形の注意を高めるためにローカル濃度モジュールを導入します。
強化された線形のグローバルな注意とローカルウィンドウの注意を組み込むことにより、L $^2 $ vitと呼ばれる新しいVitアーキテクチャを提案します。
特に、L $^2 $ vitは、線形計算の複雑さを享受しながら、グローバルな相互作用と局所表現の両方を効果的にキャプチャできます。
広範な実験は、L $^2 $ vitの強力なパフォーマンスを示しています。
画像分類では、L $^2 $ vitは、追加のトレーニングデータやラベルなしでImagenet-1Kで84.4%のTOP-1精度を達成します。
ImagENet-22Kでの事前トレーニングにより、解像度384 $^2 $で微調整されると87.0%が達成されます。
ダウンストリームタスクの場合、L $^2 $ vitは、セマンティックセグメンテーションと同様に、オブジェクト検出のバックボーンとして好ましいパフォーマンスを提供します。

要約(オリジナル)

Vision Transformers (ViTs) have recently taken computer vision by storm. However, the softmax attention underlying ViTs comes with a quadratic complexity in time and memory, hindering the application of ViTs to high-resolution images. We revisit the attention design and propose a linear attention method to address the limitation, which doesn’t sacrifice ViT’s core advantage of capturing global representation like existing methods (e.g. local window attention of Swin). We further investigate the key difference between linear attention and softmax attention. Our empirical results suggest that linear attention lacks a fundamental property of concentrating the distribution of the attention matrix. Inspired by this observation, we introduce a local concentration module to enhance linear attention. By incorporating enhanced linear global attention and local window attention, we propose a new ViT architecture, dubbed L$^2$ViT. Notably, L$^2$ViT can effectively capture both global interactions and local representations while enjoying linear computational complexity. Extensive experiments demonstrate the strong performance of L$^2$ViT. On image classification, L$^2$ViT achieves 84.4% Top-1 accuracy on ImageNet-1K without any extra training data or label. By further pre-training on ImageNet-22k, it attains 87.0% when fine-tuned with resolution 384$^2$. For downstream tasks, L$^2$ViT delivers favorable performance as a backbone on object detection as well as semantic segmentation.

arxiv情報

著者 Chuanyang Zheng
発行日 2025-01-27 16:29:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク