Sharper Bounds for $\ell_p$ Sensitivity Sampling

要約

大規模な機械学習において、ランダムサンプリングは、少数の代表的な部分例によってデータセットを近似する一般的な方法である。特に、感度サンプリングは、非常に一般的な設定において、例数をVC次元$d$と全感度$mathfrak S$の積に減らしながら、近似の質について証明可能な保証を提供する、熱心に研究された手法である。しかし、この一般的な$mathfrak S d$の境界を超える保証は、感度サンプリングに関する先行研究にもかかわらず、恐らく$ell_2$部分空間埋め込みに関する1つの設定しか知られていない。本研究では、$p > 2$の$cell_p$部分空間埋め込みに対する感度サンプリングの境界を初めて示し、一般的な$mathfrak S d$の境界を改善し、$2要約(オリジナル)

In large scale machine learning, random sampling is a popular way to approximate datasets by a small representative subset of examples. In particular, sensitivity sampling is an intensely studied technique which provides provable guarantees on the quality of approximation, while reducing the number of examples to the product of the VC dimension $d$ and the total sensitivity $\mathfrak S$ in remarkably general settings. However, guarantees going beyond this general bound of $\mathfrak S d$ are known in perhaps only one setting, for $\ell_2$ subspace embeddings, despite intense study of sensitivity sampling in prior work. In this work, we show the first bounds for sensitivity sampling for $\ell_p$ subspace embeddings for $p > 2$ that improve over the general $\mathfrak S d$ bound, achieving a bound of roughly $\mathfrak S^{2-2/p}$ for $2arxiv情報

著者 David P. Woodruff,Taisuke Yasuda
発行日 2024-01-03 15:47:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.DS, cs.LG, stat.ML パーマリンク