Robust Sparse Estimation for Gaussians with Optimal Error under Huber Contamination

要約

私たちは、平均推定、PCA、線形回帰に焦点を当てて、Huber の汚染モデルにおけるガウス疎推定タスクを研究します。
これらのタスクごとに、最初のサンプルと、一定の係数内で最適な誤差保証を備えた計算効率の高いロバスト推定量を提供します。
これらのタスクに対する従来の効率的なアルゴリズムはすべて、定量的に次善のエラーを引き起こします。
具体的には、破損率 $\epsilon>0$ の $\mathbb{R}^d$ に対するガウスロバストな $k$-sparse 平均推定の場合、アルゴリズムのサンプル複雑さは $(k^2/\epsilon^2)\mathrm になります。
{polylog}(d/\epsilon)$ はサンプル多項式時間で実行され、$\ell_2$-error $O(\epsilon)$ 以内でターゲット平均を近似します。
以前の効率的なアルゴリズムでは本質的にエラー $\Omega(\epsilon \sqrt{\log(1/\epsilon)})$ が発生します。
技術レベルでは、他の用途が見つかる可能性のあるスパース領域での新しい多次元フィルタリング手法を開発します。

要約(オリジナル)

We study Gaussian sparse estimation tasks in Huber’s contamination model with a focus on mean estimation, PCA, and linear regression. For each of these tasks, we give the first sample and computationally efficient robust estimators with optimal error guarantees, within constant factors. All prior efficient algorithms for these tasks incur quantitatively suboptimal error. Concretely, for Gaussian robust $k$-sparse mean estimation on $\mathbb{R}^d$ with corruption rate $\epsilon>0$, our algorithm has sample complexity $(k^2/\epsilon^2)\mathrm{polylog}(d/\epsilon)$, runs in sample polynomial time, and approximates the target mean within $\ell_2$-error $O(\epsilon)$. Previous efficient algorithms inherently incur error $\Omega(\epsilon \sqrt{\log(1/\epsilon)})$. At the technical level, we develop a novel multidimensional filtering method in the sparse regime that may find other applications.

arxiv情報

著者 Ilias Diakonikolas,Daniel M. Kane,Sushrut Karmalkar,Ankit Pensia,Thanasis Pittas
発行日 2024-03-15 15:51:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.ST, stat.ML, stat.TH パーマリンク