When big data actually are low-rank, or entrywise approximation of certain function-generated matrices

要約

この記事は、2 つの $m$ 次元変数の滑らかな関数をサンプリングすることによって生成される行列の低ランク近似に関するものです。
我々は、特定のクラスの分析関数について、そのような行列は $m$ に依存しない正確なランクの入口近似を許容することを証明する文献で行われた議論、つまり「ビッグデータ行列はほぼ低位である」として知られる主張に反論します。
ランク」。
我々は、この主張を裏付けるために提示された数値結果の理論的説明を提供します。これは、 $n \times n$ 関数で生成された行列が、順位 $\varepsilon$ の次数 $\varepsilon$ のエントリワイズ誤差内で近似できる関数の 3 つの狭いクラスを説明しています。
$m$ 次元から独立した \mathcal{O}(\log(n) \varepsilon^{-2} \mathrm{polylog}(\varepsilon^{-1}))$: (i) の関数
2 つの変数の内積、(ii) 変数間のユークリッド距離の関数、および (iii) シフト不変の正定値カーネル。
$m$ 次元変数の多線形積の関数で生成されたテンソルのテンソルトレイン近似まで議論を拡張します。
(a) 成長するデータセットと (b) トランスフォーマー ニューラル ネットワークにおける注意の低ランク近似のコンテキストで結果を説明します。

要約(オリジナル)

The article concerns low-rank approximation of matrices generated by sampling a smooth function of two $m$-dimensional variables. We refute an argument made in the literature to prove that, for a specific class of analytic functions, such matrices admit accurate entrywise approximation of rank that is independent of $m$ — a claim known as ‘big-data matrices are approximately low-rank’. We provide a theoretical explanation of the numerical results presented in support of this claim, describing three narrower classes of functions for which $n \times n$ function-generated matrices can be approximated within an entrywise error of order $\varepsilon$ with rank $\mathcal{O}(\log(n) \varepsilon^{-2} \mathrm{polylog}(\varepsilon^{-1}))$ that is independent of the dimension $m$: (i) functions of the inner product of the two variables, (ii) functions of the Euclidean distance between the variables, and (iii) shift-invariant positive-definite kernels. We extend our argument to tensor-train approximation of tensors generated with functions of the multi-linear product of their $m$-dimensional variables. We discuss our results in the context of low-rank approximation of (a) growing datasets and (b) attention in transformer neural networks.

arxiv情報

著者 Stanislav Budzinskiy
発行日 2024-09-06 11:56:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA パーマリンク