A Sub-Quadratic Time Algorithm for Robust Sparse Mean Estimation

要約

敵対的外れ値が存在する場合の疎な平均推定のアルゴリズムの問​​題を研究します。
具体的には、アルゴリズムは $\mathcal{N}(\mu,\mathbf{I}_d)$ からのサンプルの \emph{破損した} セットを観察します。ここで、未知の平均 $\mu \in \mathbb{R}^d
$ は $k$-sparse になるように制約されます。
これまでの一連の研究では、サンプル複雑度 $\mathrm{poly}(k,\log d, 1/\epsilon)$ と実行時間 $d^2 \mathrm{poly}(k,
\log d,1/\epsilon)$、$\epsilon$ は汚染の割合です。
特に、既存のアルゴリズムの最も高速な実行時間は 2 次 ($\Omega(d^2)$) であり、高次元では法外な速度になる可能性があります。
実行時のこの二次障壁は、サイズ $d^2$ のサンプル共分散行列に対するこれらのアルゴリズムの依存から生じます。
私たちの主な貢献は、$\mathrm{poly}(k,\log d,1/\epsilon)$ サンプルを使用して \emph{二次} 時間で実行されるロバストな疎平均推定のアルゴリズムです。
また、堅牢なスパース PCA についても同様の結果を提供します。
私たちの結果は、Valiant による電球問題の一般化バージョンである弱い相関を検出するアルゴリズムの進歩に基づいています。

要約(オリジナル)

We study the algorithmic problem of sparse mean estimation in the presence of adversarial outliers. Specifically, the algorithm observes a \emph{corrupted} set of samples from $\mathcal{N}(\mu,\mathbf{I}_d)$, where the unknown mean $\mu \in \mathbb{R}^d$ is constrained to be $k$-sparse. A series of prior works has developed efficient algorithms for robust sparse mean estimation with sample complexity $\mathrm{poly}(k,\log d, 1/\epsilon)$ and runtime $d^2 \mathrm{poly}(k,\log d,1/\epsilon)$, where $\epsilon$ is the fraction of contamination. In particular, the fastest runtime of existing algorithms is quadratic ($\Omega(d^2)$), which can be prohibitive in high dimensions. This quadratic barrier in the runtime stems from the reliance of these algorithms on the sample covariance matrix, which is of size $d^2$. Our main contribution is an algorithm for robust sparse mean estimation which runs in \emph{subquadratic} time using $\mathrm{poly}(k,\log d,1/\epsilon)$ samples. We also provide analogous results for robust sparse PCA. Our results build on algorithmic advances in detecting weak correlations, a generalized version of the light-bulb problem by Valiant.

arxiv情報

著者 Ankit Pensia
発行日 2024-03-07 18:23:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.ST, stat.ML, stat.TH パーマリンク