要約
Transformer モデルの Softmax アテンション メカニズムは、特に二次関数の複雑さのため、計算コストが高いことで知られており、ビジョン アプリケーションに重大な課題をもたらします。
対照的に、線形アテンションは、複雑さを線形レベルに軽減することで、はるかに効率的なソリューションを提供します。
ただし、ソフトマックス アテンションと比較すると、リニア アテンションではパフォーマンスが大幅に低下することがよくあります。
私たちの実験によると、このパフォーマンスの低下は、線形アテンションの特徴マップの低ランクの性質が原因であり、複雑な空間情報を適切にモデル化する能力が妨げられています。
この論文では、線形アテンションの低ランクのジレンマを打破するために、KV バッファーと出力特徴という 2 つの観点からランク分析を実行します。
その結果、線形の複雑さと高効率を維持しながら、ソフトマックス アテンションのパフォーマンスに匹敵するランク拡張線形アテンション (RALA) を導入します。
RALA に基づいて、Rank-Augmented Vision Linear Transformer (RAVLT) を構築します。
広範な実験により、RAVLT がさまざまな視覚タスクにわたって優れたパフォーマンスを達成することが実証されました。
具体的には、トレーニング中に追加のラベル、データ、または監視を使用せずに、RAVLT は、わずか 2,600 万のパラメータと 4.6G FLOP で、ImageNet-1k 上で 84.4% のトップ 1 精度を達成します。
この結果は、これまでの線形注意メカニズムを大幅に上回り、RALA の可能性を十分に示しています。
コードは https://github.com/qhfan/RALA で入手できます。
要約(オリジナル)
The Softmax attention mechanism in Transformer models is notoriously computationally expensive, particularly due to its quadratic complexity, posing significant challenges in vision applications. In contrast, linear attention provides a far more efficient solution by reducing the complexity to linear levels. However, compared to Softmax attention, linear attention often experiences significant performance degradation. Our experiments indicate that this performance drop is due to the low-rank nature of linear attention’s feature map, which hinders its ability to adequately model complex spatial information. In this paper, to break the low-rank dilemma of linear attention, we conduct rank analysis from two perspectives: the KV buffer and the output features. Consequently, we introduce Rank-Augmented Linear Attention (RALA), which rivals the performance of Softmax attention while maintaining linear complexity and high efficiency. Based on RALA, we construct the Rank-Augmented Vision Linear Transformer (RAVLT). Extensive experiments demonstrate that RAVLT achieves excellent performance across various vision tasks. Specifically, without using any additional labels, data, or supervision during training, RAVLT achieves an 84.4% Top-1 accuracy on ImageNet-1k with only 26M parameters and 4.6G FLOPs. This result significantly surpasses previous linear attention mechanisms, fully illustrating the potential of RALA. Code will be available at https://github.com/qhfan/RALA.
arxiv情報
著者 | Qihang Fan,Huaibo Huang,Ran He |
発行日 | 2024-11-14 15:40:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google