Computing Approximate $\ell_p$ Sensitivities

要約

回帰タスクの次元削減における最近の研究では、データセット内の特定のデータポイントの重要性の推定値である感度の概念が導入され、サブサンプリングによって感度の低いデータポイントを削除した後の近似の品質について証明可能な保証が提供されています。
ただし、$\ell_p$ 感度を近似するための高速アルゴリズム (近似 $\ell_p$ 回帰と同等であることを示します) は、レバレッジ スコアと呼ばれる $\ell_2$ 設定についてのみ知られています。
この研究では、特定の行列の $\ell_p$ 感度と関連する要約統計量を近似するための効率的なアルゴリズムを提供します。
特に、与えられた $n \times d$ 行列について、$O(n/\alpha)$ の感度計算を犠牲にして、その $\ell_1$ 感度への $\alpha$ 近似を計算します。
合計 $\ell_p$ 感度 (つまり、$\ell_p$ 感度の合計) を推定するために、$\ell_p$ ルイス重みの重要度サンプリングに基づくアルゴリズムを提供します。これは、コストで合計感度の定数係数近似を計算します。
およそ $O(\sqrt{d})$ の感度計算。
さらに、$O(d)$ 感度計算を使用して、$\sqrt{d}$ 係数までの最大 $\ell_1$ 感度を推定します。
これらすべての結果を $p > 1$ の $\ell_p$ ノルムに一般化します。
最後に、実世界のデータセットの幅広いクラスの行列について、合計感度がすぐに近似でき、理論的予測よりも大幅に小さいことを実験的に示し、実世界のデータセットの固有の有効次元が低いことを示しています。

要約(オリジナル)

Recent works in dimensionality reduction for regression tasks have introduced the notion of sensitivity, an estimate of the importance of a specific datapoint in a dataset, offering provable guarantees on the quality of the approximation after removing low-sensitivity datapoints via subsampling. However, fast algorithms for approximating $\ell_p$ sensitivities, which we show is equivalent to approximate $\ell_p$ regression, are known for only the $\ell_2$ setting, in which they are termed leverage scores. In this work, we provide efficient algorithms for approximating $\ell_p$ sensitivities and related summary statistics of a given matrix. In particular, for a given $n \times d$ matrix, we compute $\alpha$-approximation to its $\ell_1$ sensitivities at the cost of $O(n/\alpha)$ sensitivity computations. For estimating the total $\ell_p$ sensitivity (i.e. the sum of $\ell_p$ sensitivities), we provide an algorithm based on importance sampling of $\ell_p$ Lewis weights, which computes a constant factor approximation to the total sensitivity at the cost of roughly $O(\sqrt{d})$ sensitivity computations. Furthermore, we estimate the maximum $\ell_1$ sensitivity, up to a $\sqrt{d}$ factor, using $O(d)$ sensitivity computations. We generalize all these results to $\ell_p$ norms for $p > 1$. Lastly, we experimentally show that for a wide class of matrices in real-world datasets, the total sensitivity can be quickly approximated and is significantly smaller than the theoretical prediction, demonstrating that real-world datasets have low intrinsic effective dimensionality.

arxiv情報

著者 Swati Padmanabhan,David P. Woodruff,Qiuyi,Zhang
発行日 2023-11-07 17:34:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, stat.ML パーマリンク