PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention

要約

大規模な言語モデル(LLM)は、長いコンテキストを処理する際の注意メカニズムの二次複雑さのために、効率のボトルネックに直面します。
まばらな注意方法は有望なソリューションを提供しますが、既存のアプローチはしばしば不完全な効果的なコンテキストに悩まされ、および/またはパイプラインの複雑な実装が必要です。
受容フィールドのそれぞれからの自己回帰LLMのまばらな注意の包括的な分析を提示し、受容フィールドを拡張するための既存の方法の最適ではない性質を認識し、理論分析を通じて効果的かつ完全なコンテキスト拡張を促進する新しいまばらな注意設計であるPowerAttentionを導入します。
PowerAttentionは、$ D $ -LAYER LLMSの指数受容フィールドの成長を達成し、各出力トークンが$ 2^d $トークンに参加できるようになり、受容フィールドの完全性と継続性が確保されます。
実験は、PowerAttentionが既存の静的スパース注意方法を5ドルで$ 5 \ SIM 40 \%$で上回ることを示しています。特に、パスキー検索や定規などの長距離依存関係を要求するタスクで、スライドウィンドウの注意に匹敵する時間の複雑さを維持します。
効率評価は、動的なスパースの注意と完全な注意(128Kコンテキストで$ 3.0 \ Times $速い)と比較して、POWERATTENTIONの充電フェーズとデコードフェーズの両方で優れたスピードアップを強調し、LLMSで長いシーケンスを処理するための非常に効果的でユーザーフレンドリーなソリューションになります。

要約(オリジナル)

Large Language Models (LLMs) face efficiency bottlenecks due to the quadratic complexity of the attention mechanism when processing long contexts. Sparse attention methods offer a promising solution, but existing approaches often suffer from incomplete effective context and/or require complex implementation of pipeline. We present a comprehensive analysis of sparse attention for autoregressive LLMs from the respective of receptive field, recognize the suboptimal nature of existing methods for expanding the receptive field, and introduce PowerAttention, a novel sparse attention design that facilitates effective and complete context extension through the theoretical analysis. PowerAttention achieves exponential receptive field growth in $d$-layer LLMs, allowing each output token to attend to $2^d$ tokens, ensuring completeness and continuity of the receptive field. Experiments demonstrate that PowerAttention outperforms existing static sparse attention methods by $5\sim 40\%$, especially on tasks demanding long-range dependencies like Passkey Retrieval and RULER, while maintaining a comparable time complexity to sliding window attention. Efficiency evaluations further highlight PowerAttention’s superior speedup in both prefilling and decoding phases compared with dynamic sparse attentions and full attention ($3.0\times$ faster on 128K context), making it a highly effective and user-friendly solution for processing long sequences in LLMs.

arxiv情報

著者 Lida Chen,Dong Xu,Chenxin An,Xintao Wang,Yikai Zhang,Jiangjie Chen,Zujie Liang,Feng Wei,Jiaqing Liang,Yanghua Xiao,Wei Wang
発行日 2025-03-05 15:24:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク