Randomized and Deterministic Attention Sparsification Algorithms for Over-parameterized Feature Dimension




– 大規模言語モデル(LLM)は、異なる分野での効力を示している。
– 注意計算は、LLMの重要な副ルーチンとして、理論的にも興味を引く。
– この研究では、注意の問題の疎化を考慮している。
– 対象としている行列$X$は、畳み込みニューラルネットワークの出力層の重み行列に対応する。
– 疎な$Y$を見つけるために、ランダム化されたアルゴリズムと決定論的アルゴリズムの2つの結果を提供する。
– この研究は、実際のLLMのタスクに以下のような応用可能性がある:どんな超大型の特徴次元に対しても、文の長さにほぼ線形に縮小できる。


Large language models (LLMs) have shown their power in different areas. Attention computation, as an important subroutine of LLMs, has also attracted interests in theory. Recently the static computation and dynamic maintenance of attention matrix has been studied by [Alman and Song 2023] and [Brand, Song and Zhou 2023] from both algorithmic perspective and hardness perspective. In this work, we consider the sparsification of the attention problem. We make one simplification which is the logit matrix is symmetric. Let $n$ denote the length of sentence, let $d$ denote the embedding dimension. Given a matrix $X \in \mathbb{R}^{n \times d}$, suppose $d \gg n$ and $\| X X^\top \|_{\infty} < r$ with $r \in (0,0.1)$, then we aim for finding $Y \in \mathbb{R}^{n \times m}$ (where $m\ll d$) such that \begin{align*} \| D(Y)^{-1} \exp( Y Y^\top ) - D(X)^{-1} \exp( X X^\top) \|_{\infty} \leq O(r) \end{align*} We provide two results for this problem. $\bullet$ Our first result is a randomized algorithm. It runs in $\widetilde{O}(\mathrm{nnz}(X) + n^{\omega} ) $ time, has $1-\delta$ succeed probability, and chooses $m = O(n \log(n/\delta))$. Here $\mathrm{nnz}(X)$ denotes the number of non-zero entries in $X$. We use $\omega$ to denote the exponent of matrix multiplication. Currently $\omega \approx 2.373$. $\bullet$ Our second result is a deterministic algorithm. It runs in $\widetilde{O}(\min\{\sum_{i\in[d]}\mathrm{nnz}(X_i)^2, dn^{\omega-1}\} + n^{\omega+1})$ time and chooses $m = O(n)$. Here $X_i$ denote the $i$-th column of matrix $X$. Our main findings have the following implication for applied LLMs task: for any super large feature dimension, we can reduce it down to the size nearly linear in length of sentence.


著者 Yichuan Deng,Sridhar Mahadevan,Zhao Song
発行日 2023-04-10 05:52:38+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.DS, cs.LG パーマリンク