Lightweight Structure-Aware Attention for Visual Understanding

要約

ビジョン トランスフォーマー (ViTs) は、自己注意オペレーターによる視覚表現学習の主要なパラダイムになりました。
これらの演算子は、調整可能なアテンション カーネルを使用してモデルに柔軟性を提供しますが、固有の制限があります。(1) アテンション カーネルの識別力が十分でないため、ViT レイヤーの冗長性が高くなり、(2) 計算とメモリが複雑になります。
は、シーケンス長が 2 次です。
この論文では、対数線形の複雑さでより優れた表現力を持つ、軽量構造認識注意(LiSA)と呼ばれる新しい注意演算子を提案します。
オペレーターは、一連の相対位置埋め込み (RPE) を使用して構造パターンを学習します。
対数線形の複雑さを実現するために、RPE は高速フーリエ変換で近似されます。
私たちの実験とアブレーション研究は、提案されたオペレーターに基づく ViT が自己注意や他の既存のオペレーターよりも優れており、ImageNet で最先端の結果を達成し、COCO や Something-Something- などの他の視覚的理解ベンチマークで競争力のある結果を達成することを示しています。
V2.
私たちのアプローチのソースコードはオンラインで公開されます。

要約(オリジナル)

Vision Transformers (ViTs) have become a dominant paradigm for visual representation learning with self-attention operators. Although these operators provide flexibility to the model with their adjustable attention kernels, they suffer from inherent limitations: (1) the attention kernel is not discriminative enough, resulting in high redundancy of the ViT layers, and (2) the complexity in computation and memory is quadratic in the sequence length. In this paper, we propose a novel attention operator, called lightweight structure-aware attention (LiSA), which has a better representation power with log-linear complexity. Our operator learns structural patterns by using a set of relative position embeddings (RPEs). To achieve log-linear complexity, the RPEs are approximated with fast Fourier transforms. Our experiments and ablation studies demonstrate that ViTs based on the proposed operator outperform self-attention and other existing operators, achieving state-of-the-art results on ImageNet, and competitive results on other visual understanding benchmarks such as COCO and Something-Something-V2. The source code of our approach will be released online.

arxiv情報

著者 Heeseung Kwon,Francisco M. Castro,Manuel J. Marin-Jimenez,Nicolas Guil,Karteek Alahari
発行日 2022-11-29 15:20:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク