Randomized and Deterministic Attention Sparsification Algorithms for Over-parameterized Feature Dimension

要約

タイトル:過パラメータ化された特徴次元のためのランダム化された決定論的注意の疎化アルゴリズム

要約:

– 大規模言語モデル(LLM)は、異なる分野での効力を示している。
– 注意計算は、LLMの重要な副ルーチンとして、理論的にも興味を引く。
– この研究では、注意の問題の疎化を考慮している。
– 対象としている行列$X$は、畳み込みニューラルネットワークの出力層の重み行列に対応する。
– 疎な$Y$を見つけるために、ランダム化されたアルゴリズムと決定論的アルゴリズムの2つの結果を提供する。
– この研究は、実際のLLMのタスクに以下のような応用可能性がある:どんな超大型の特徴次元に対しても、文の長さにほぼ線形に縮小できる。

要点:

– 大規模言語モデル(LLMs)は幅広い分野で利用されており、そのサブルーチンの1つである注意計算について、理論的な研究が進んでいる。
– この研究では、畳み込みニューラルネットワークの出力層の重み行列に対応する$X$を対象に、注意の問題を疎化することを考慮する。
– 2つの疎な行列$X$と$Y$について、$\| D(Y)^{-1} \exp( Y Y^\top ) – D(X)^{-1} \exp( X X^\top) \|_{\infty} \leq O(r)$が成立するように、$Y$を見つけることを目的とする。
– 疎行列$Y$を見つけるために、ランダム化されたアルゴリズムと決定論的アルゴリズムの2つの方法を提案する。
– ランダムアルゴリズムは、$\widetilde{O}(\mathrm{nnz}(X) + n^{\omega} ) $時間で動作し、成功率$1-\delta$を持ち、$m = O(n \log(n/\delta))$を選択する。
– 決定論的アルゴリズムは、$\widetilde{O}(\min\{\sum_{i\in[d]}\mathrm{nnz}(X_i)^2, dn^{\omega-1}\} + n^{\omega+1})$時間で動作し、$m = O(n)$を選択する。
– 任意の超大規模の特徴次元に対して、線形ほど小さくすることができる。

要約(オリジナル)

Large language models (LLMs) have shown their power in different areas. Attention computation, as an important subroutine of LLMs, has also attracted interests in theory. Recently the static computation and dynamic maintenance of attention matrix has been studied by [Alman and Song 2023] and [Brand, Song and Zhou 2023] from both algorithmic perspective and hardness perspective. In this work, we consider the sparsification of the attention problem. We make one simplification which is the logit matrix is symmetric. Let $n$ denote the length of sentence, let $d$ denote the embedding dimension. Given a matrix $X \in \mathbb{R}^{n \times d}$, suppose $d \gg n$ and $\| X X^\top \|_{\infty} < r$ with $r \in (0,0.1)$, then we aim for finding $Y \in \mathbb{R}^{n \times m}$ (where $m\ll d$) such that \begin{align*} \| D(Y)^{-1} \exp( Y Y^\top ) - D(X)^{-1} \exp( X X^\top) \|_{\infty} \leq O(r) \end{align*} We provide two results for this problem. $\bullet$ Our first result is a randomized algorithm. It runs in $\widetilde{O}(\mathrm{nnz}(X) + n^{\omega} ) $ time, has $1-\delta$ succeed probability, and chooses $m = O(n \log(n/\delta))$. Here $\mathrm{nnz}(X)$ denotes the number of non-zero entries in $X$. We use $\omega$ to denote the exponent of matrix multiplication. Currently $\omega \approx 2.373$. $\bullet$ Our second result is a deterministic algorithm. It runs in $\widetilde{O}(\min\{\sum_{i\in[d]}\mathrm{nnz}(X_i)^2, dn^{\omega-1}\} + n^{\omega+1})$ time and chooses $m = O(n)$. Here $X_i$ denote the $i$-th column of matrix $X$. Our main findings have the following implication for applied LLMs task: for any super large feature dimension, we can reduce it down to the size nearly linear in length of sentence.

arxiv情報

著者 Yichuan Deng,Sridhar Mahadevan,Zhao Song
発行日 2023-04-10 05:52:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.DS, cs.LG パーマリンク