SEA: Sparse Linear Attention with Estimated Attention Mask

要約

トランスフォーマー アーキテクチャは、自然言語理解の場合のように、連続する要素間のペアごとの関係をモデル化する必要があるタスクにおいて、近年のブレークスルーを推進してきました。
ただし、長いシーケンスでは、アテンション演算の 2 次の複雑さにより問題が発生します。
これまでの研究は、注意行列を疎化するか線形近似することによって複雑さを軽減することを目的としていました。
しかし、これらのアプローチでは、教師の注意マトリックスから知識を直接抽出することはできず、多くの場合、最初から完全に再トレーニングする必要があります。
さらに、以前のスパースおよび線形アプローチは、完全なアテンション行列を生成できない場合、解釈可能性を失います。
これらの課題に対処するために、私たちは SEA: 推定注意マスクを使用した疎線的注意を提案します。
SEA は、カーネルベースの線形アテンションを介して線形複雑性を備えたアテンション行列を推定し、その後、スパース アテンション操作を実行するために、上位 k の選択を含むスパース アテンション行列を作成します。
言語モデリング タスク (Wikitext2) の場合、以前の線形アテンション法とスパース アテンション法は二次 OPT-1.3B ベースラインに比べて約 2 倍悪いパープレキシティ スコアを示しましたが、SEA は OPT-1.3B よりも優れたパープレキシティを達成し、OPT の約半分のメモリを使用します。
1.3B、解釈可能なアテンション マトリックスを提供します。
私たちは、メモリが少なく、リソースが限られたデバイス上で大型の変圧器を実行できる可能性を開くため、私たちの研究は実際に大きな影響を与えると信じています。

要約(オリジナル)

The transformer architecture has driven breakthroughs in recent years on tasks which require modeling pairwise relationships between sequential elements, as is the case in natural language understanding. However, long seqeuences pose a problem due to the quadratic complexity of the attention operation. Previous research has aimed to lower the complexity by sparsifying or linearly approximating the attention matrix. Yet, these approaches cannot straightforwardly distill knowledge from a teacher’s attention matrix and often require complete retraining from scratch. Furthermore, previous sparse and linear approaches lose interpretability if they cannot produce full attention matrices. To address these challenges, we propose SEA: Sparse linear attention with an Estimated Attention mask. SEA estimates the attention matrix with linear complexity via kernel-based linear attention, then subsequently creates a sparse attention matrix with a top-k selection to perform a sparse attention operation. For language modeling tasks (Wikitext2), previous linear and sparse attention methods show roughly two-fold worse perplexity scores over the quadratic OPT-1.3B baseline, while SEA achieves better perplexity than OPT-1.3B, using roughly half the memory of OPT-1.3B, providing interpretable attention matrix. We believe that our work will have a large practical impact, as it opens the possibility of running large transformers on resource-limited devices with less memory.

arxiv情報

著者 Heejun Lee,Jina Kim,Jeffrey Willette,Sung Ju Hwang
発行日 2024-03-25 04:04:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク