FAST: Factorizable Attention for Speeding up Transformers

要約

オリジナルの高速多極法に固有の因数分解と改良された高速ガウス変換を動機として、高次元で効率的に動作する因数分解可能な注意形式を導入します。
このアプローチにより、トランスフォーマーのアテンション メカニズムの計算量とメモリの複雑さが $O(N^2)$ から $O(N)$ に軽減されます。
以前の試みと比較して、私たちの研究は、スパース化を損なうことなく注意マトリックスの完全な表現を維持し、トークン間の全対すべての関係を組み込む、線形にスケールされた注意メカニズムを提示します。
新しいアテンション指標の特性を調査し、さまざまな標準設定でテストを実施します。
結果は、私たちの注意メカニズムが堅牢なパフォーマンスを持ち、自己注意が使用されるさまざまなアプリケーションに大きな期待を持っていることを示しています。

要約(オリジナル)

Motivated by the factorization inherent in the original fast multipole method and the improved fast Gauss transform we introduce a factorable form of attention that operates efficiently in high dimensions. This approach reduces the computational and memory complexity of the attention mechanism in transformers from $O(N^2)$ to $O(N)$. In comparison to previous attempts, our work presents a linearly scaled attention mechanism that maintains the full representation of the attention matrix without compromising on sparsification and incorporates the all-to-all relationship between tokens. We explore the properties of our new attention metric and conduct tests in various standard settings. Results indicate that our attention mechanism has a robust performance and holds significant promise for diverse applications where self-attention is used.

arxiv情報

著者 Armin Gerami,Monte Hoover,Pranav S. Dulepet,Ramani Duraiswami
発行日 2024-02-12 18:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NA, math.NA パーマリンク