FLuRKA: Fast fused Low-Rank & Kernel Attention

要約

変圧器アーキテクチャの開始以来、多くの効率的な近似セルフアテンション技術が普及してきました。
これらの手法の 2 つの一般的なクラスは、低ランク メソッドとカーネル メソッドです。
これらの方法にはそれぞれ独自の長所があります。
私たちは、これらの強みが相乗的に相互に補完し合うことを観察し、これらの相乗効果を利用して低ランク メソッドとカーネル メソッドを融合し、新しいクラスのトランスフォーマーである FLuRKA (Fast Low-Rank and Kernel Attendance) を生成します。
FLuRKA は、これらの近似手法に比べてパフォーマンスが大幅に向上し、高品質です。
FLuRKA の実行時のパフォーマンスと品質の両方を理論的および経験的に評価します。
私たちのランタイム分析では、FLuRKA が高速化を示すさまざまなパラメーター構成を想定しており、精度分析ではフルアテンションに関する FLuRKA の誤差を制限しています。
3 つの FLuRKA バリアントをインスタンス化し、低ランク メソッドとカーネル メソッドに比べてそれぞれ最大 3.3 倍と 1.7 倍の高速化が経験的に得られます。
これは、完全に注意を払ったモデルに比べて最大 30 倍のスピードアップに相当します。
モデルの品質に関しては、FLuRKA は、ウィキテキスト 103 での事前トレーニング後、GLUE の低ランクおよびカーネル メソッドの精度と一致することができます。固定時間予算で事前トレーニングする場合、FLuRKA は、完全なパフォーマンスを備えたモデルよりも優れた複雑性スコアを生成します。
注意。

要約(オリジナル)

Many efficient approximate self-attention techniques have become prevalent since the inception of the transformer architecture. Two popular classes of these techniques are low-rank and kernel methods. Each of these methods has its own strengths. We observe these strengths synergistically complement each other and exploit these synergies to fuse low-rank and kernel methods, producing a new class of transformers: FLuRKA (Fast Low-Rank and Kernel Attention). FLuRKA provide sizable performance gains over these approximate techniques and are of high quality. We theoretically and empirically evaluate both the runtime performance and quality of FLuRKA. Our runtime analysis posits a variety of parameter configurations where FLuRKA exhibit speedups and our accuracy analysis bounds the error of FLuRKA with respect to full-attention. We instantiate three FLuRKA variants which experience empirical speedups of up to 3.3x and 1.7x over low-rank and kernel methods respectively. This translates to speedups of up to 30x over models with full-attention. With respect to model quality, FLuRKA can match the accuracy of low-rank and kernel methods on GLUE after pre-training on wiki-text 103. When pre-training on a fixed time budget, FLuRKA yield better perplexity scores than models with full-attention.

arxiv情報

著者 Ahan Gupta,Yueming Yuan,Yanqi Zhou,Charith Mendis
発行日 2023-06-27 20:58:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.PF パーマリンク