ViT-LSLA: Vision Transformer with Light Self-Limited-Attention

要約

トランスフォーマーは、広範囲のビジョン タスクで競争力のあるパフォーマンスを示していますが、グローバルな自己注意を計算するには非常にコストがかかります。
多くのメソッドは、計算の複雑さを軽減するために、ローカル ウィンドウ内の注意の範囲を制限します。
ただし、彼らのアプローチではパラメーターの数を節約できません。
一方、自己注意と内部位置バイアス (softmax 関数内) により、各クエリは類似した近いパッチに集中します。
その結果、この論文では、計算コストとパラメーターの数を節約するための軽い自己限定的注意メカニズム (LSA) と、改善するための自己限定的注意メカニズム (SLA) からなる軽い自己限定的注意 (LSLA) を提示します。
パフォーマンス。
まず、LSA は自己注意の K (Key) と V (Value) を X (origin input) に置き換えます。
エンコーダー アーキテクチャと自己注意メカニズムを備えたビジョン トランスフォーマーに適用すると、計算を簡素化できます。
次に、SLA には位置情報モジュールと限定的注意モジュールがあります。
前者には動的スケールと内部位置バイアスが含まれており、自己注意スコアの分布を調整し、位置情報を強化します。
後者は、ソフトマックス関数の後に外部位置バイアスを使用して、アテンション ウェイトの大きな値を制限します。
最後に、軽い自己限定的注意 (ViT-LSLA) を備えた階層型ビジョン トランスフォーマーが提示されます。
実験は、ViT-LSLA が IP102 で 71.6% のトップ 1 精度を達成することを示しています (Swin-T の 2.4% 絶対改善)。
Mini-ImageNet で 87.2% のトップ 1 精度 (Swin-T の 3.7% 絶対改善)。
さらに、FLOP (Swin-T の 3.5GFLOP 対 4.5GFLOP) とパラメーター (Swin-T の 18.9M 対 27.6M) を大幅に削減します。

要約(オリジナル)

Transformers have demonstrated a competitive performance across a wide range of vision tasks, while it is very expensive to compute the global self-attention. Many methods limit the range of attention within a local window to reduce computation complexity. However, their approaches cannot save the number of parameters; meanwhile, the self-attention and inner position bias (inside the softmax function) cause each query to focus on similar and close patches. Consequently, this paper presents a light self-limited-attention (LSLA) consisting of a light self-attention mechanism (LSA) to save the computation cost and the number of parameters, and a self-limited-attention mechanism (SLA) to improve the performance. Firstly, the LSA replaces the K (Key) and V (Value) of self-attention with the X(origin input). Applying it in vision Transformers which have encoder architecture and self-attention mechanism, can simplify the computation. Secondly, the SLA has a positional information module and a limited-attention module. The former contains a dynamic scale and an inner position bias to adjust the distribution of the self-attention scores and enhance the positional information. The latter uses an outer position bias after the softmax function to limit some large values of attention weights. Finally, a hierarchical Vision Transformer with Light self-Limited-attention (ViT-LSLA) is presented. The experiments show that ViT-LSLA achieves 71.6% top-1 accuracy on IP102 (2.4% absolute improvement of Swin-T); 87.2% top-1 accuracy on Mini-ImageNet (3.7% absolute improvement of Swin-T). Furthermore, it greatly reduces FLOPs (3.5GFLOPs vs. 4.5GFLOPs of Swin-T) and parameters (18.9M vs. 27.6M of Swin-T).

arxiv情報

著者 Zhenzhe Hechen,Wei Huang,Yixin Zhao
発行日 2022-10-31 07:46:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク