Algorithmic Gaussianization through Sketching: Converting Data into Sub-gaussian Random Designs

要約

アルゴリズム ガウス化は、ランダム化されたスケッチまたはサンプリング手法を使用して、大規模なデータセットのより小さな表現を生成するときに発生する可能性のある現象です。特定のタスクでは、これらのスケッチ表現は、データ サンプルが
サブガウスランダム設計。データ分布の強力な統計モデルです。
ただし、この現象は、特定のタスクとメトリクスについて、または計算コストのかかる方法に依存することによってのみ研究されてきました。
私たちは、平均化によってデータ分布をガウス化するためのアルゴリズム フレームワークを提供することでこの問題に対処し、サブガウスのランダム設計と (総変動距離の観点から) ほとんど区別できないデータ スケッチを効率的に構築できることを証明しました。
特に、Leverage Score Sparsified (LESS) 埋め込みと呼ばれる最近導入されたスケッチ手法に依存して、$N\times d$ 行列 $A$ の $n\times d$ スケッチを構築できることを示します。ここで、$n\
ll N$、時間的にはサブガウス設計とほとんど区別がつきません $O(\text{nnz}(A)\log N + nd^2)$、ここで $\text{nnz}(A)$ は
$A$ 内のゼロ以外のエントリの数。
その結果、サブガウス設計から生成された推定量 (最小二乗法やラッソ回帰、共分散推定、低ランク近似など) で利用できる強力な統計的保証と正確な漸近線を、スケッチ フレームワークに直接適用できます。
これを、スケッチ最小二乗法などの新しい近似保証で説明します。

要約(オリジナル)

Algorithmic Gaussianization is a phenomenon that can arise when using randomized sketching or sampling methods to produce smaller representations of large datasets: For certain tasks, these sketched representations have been observed to exhibit many robust performance characteristics that are known to occur when a data sample comes from a sub-gaussian random design, which is a powerful statistical model of data distributions. However, this phenomenon has only been studied for specific tasks and metrics, or by relying on computationally expensive methods. We address this by providing an algorithmic framework for gaussianizing data distributions via averaging, proving that it is possible to efficiently construct data sketches that are nearly indistinguishable (in terms of total variation distance) from sub-gaussian random designs. In particular, relying on a recently introduced sketching technique called Leverage Score Sparsified (LESS) embeddings, we show that one can construct an $n\times d$ sketch of an $N\times d$ matrix $A$, where $n\ll N$, that is nearly indistinguishable from a sub-gaussian design, in time $O(\text{nnz}(A)\log N + nd^2)$, where $\text{nnz}(A)$ is the number of non-zero entries in $A$. As a consequence, strong statistical guarantees and precise asymptotics available for the estimators produced from sub-gaussian designs (e.g., for least squares and Lasso regression, covariance estimation, low-rank approximation, etc.) can be straightforwardly adapted to our sketching framework. We illustrate this with a new approximation guarantee for sketched least squares, among other examples.

arxiv情報

著者 Michał Dereziński
発行日 2023-07-27 17:48:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.ST, stat.ML, stat.TH パーマリンク