Coresets for Multiple $\ell_p$ Regression

要約

$n$ 個のサンプルと $d$ 個の特徴を含むデータセットのコアセットは、下流のデータ分析タスクを解決するのに十分なサンプルの重み付けされたサブセットです。
最小二乗法および単一応答の $\ell_p$ 線形回帰に対するコアセットのほぼ最適な構築は、以前の研究で知られています。
ただし、$m$ 応答が存在する可能性がある複数の $\ell_p$ 回帰では、$m$ でサブリニアなサイズを持つ既知の構築はありません。
この作業では、$p<2$ および $\tilde O(\varepsilon^{-p}d^{p/2} の場合) サイズ $\tilde O(\varepsilon^{-2}d)$ のコアセットを構築します。 )$ は、$m$ (つまり無次元) とは無関係に、$p>2$ に対して定義されます。これは、ドメイン内の各点における複数の $\ell_p$ 回帰目標を $(1\pm\varepsilon)$ 相対誤差まで近似します。
部分空間制約に従ってミニマイザーを保持する必要があるだけの場合は、すべての $p>1$ に対して $\varepsilon$ 係数によってこれらの境界を改善します。
私たちの限界はすべてほぼタイトです。
結果を 2 つ応用します。
まず、$\ell_p$ ユークリッド累乗平均を $(1+\varepsilon)$ 係数まで近似するのに必要な均一サンプルの数を決定します。これは、$\tilde\Theta(\varepsilon^{-2})$ サンプルが次のことを示しています。
$p = 1$ の場合は $\tilde\Theta(\varepsilon^{-1})$ サンプル、$1 < p < 2$ の場合は $\tilde\Theta(\varepsilon^{1-p})$ サンプル $p>2$ はタイトで、Cohen-Addad、Saulpic、Schwiegelshohn の質問に答えています。
次に、$1要約(オリジナル)

A coreset of a dataset with $n$ examples and $d$ features is a weighted subset of examples that is sufficient for solving downstream data analytic tasks. Nearly optimal constructions of coresets for least squares and $\ell_p$ linear regression with a single response are known in prior work. However, for multiple $\ell_p$ regression where there can be $m$ responses, there are no known constructions with size sublinear in $m$. In this work, we construct coresets of size $\tilde O(\varepsilon^{-2}d)$ for $p<2$ and $\tilde O(\varepsilon^{-p}d^{p/2})$ for $p>2$ independently of $m$ (i.e., dimension-free) that approximate the multiple $\ell_p$ regression objective at every point in the domain up to $(1\pm\varepsilon)$ relative error. If we only need to preserve the minimizer subject to a subspace constraint, we improve these bounds by an $\varepsilon$ factor for all $p>1$. All of our bounds are nearly tight. We give two application of our results. First, we settle the number of uniform samples needed to approximate $\ell_p$ Euclidean power means up to a $(1+\varepsilon)$ factor, showing that $\tilde\Theta(\varepsilon^{-2})$ samples for $p = 1$, $\tilde\Theta(\varepsilon^{-1})$ samples for $1 < p < 2$, and $\tilde\Theta(\varepsilon^{1-p})$ samples for $p>2$ is tight, answering a question of Cohen-Addad, Saulpic, and Schwiegelshohn. Second, we show that for $1arxiv情報

著者 David P. Woodruff,Taisuke Yasuda
発行日 2024-06-04 15:50:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, stat.ML パーマリンク