When big data actually are low-rank, or entrywise approximation of certain function-generated matrices

要約

この論文は、2つの$m$次元変数の滑らかな関数をサンプリングすることによって生成される行列の低ランク近似に関するものである。我々は、特定の解析的関数のクラスについて、そのような行列は$m$に依存しないランクの正確な入口近似を認めるという文献にある議論に反論する。この論証を支持する数値結果の理論的説明を行い、$m$の次元に依存しない次数$varepsilon$のエントリーワイズ誤差で$n個の$times n$関数生成行列を近似できる3つの狭いクラスの関数を説明する:(i)2変数の内積の関数、(ii)変数間のユークリッド距離の2乗の関数、(iii)シフト不変正定値カーネル。m$次元変数の多直線積の関数で生成されたテンソルの低ランクテンソル-トレイン近似に我々の議論を拡張する。この結果を、変形ニューラルネットワークにおける注意の低ランク近似の文脈で議論する。

要約(オリジナル)

The article concerns low-rank approximation of matrices generated by sampling a smooth function of two $m$-dimensional variables. We refute an argument made in the literature that, for a specific class of analytic functions, such matrices admit accurate entrywise approximation of rank that is independent of $m$. We provide a theoretical explanation of the numerical results presented in support of this argument, describing three narrower classes of functions for which $n \times n$ function-generated matrices can be approximated within an entrywise error of order $\varepsilon$ with rank $\mathcal{O}(\log(n) \varepsilon^{-2} \mathrm{polylog}(\varepsilon^{-1}))$ that is independent of the dimension $m$: (i) functions of the inner product of the two variables, (ii) functions of the squared Euclidean distance between the variables, and (iii) shift-invariant positive-definite kernels. We extend our argument to low-rank tensor-train approximation of tensors generated with functions of the multi-linear product of their $m$-dimensional variables. We discuss our results in the context of low-rank approximation of attention in transformer neural networks.

arxiv情報

著者 Stanislav Budzinskiy
発行日 2024-07-04 10:56:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.NA, math.NA パーマリンク