Robust Sparse Mean Estimation via Incremental Learning

要約

この論文では、ロバストな疎平均推定の問題を研究します。目標は、重い裾分布から抽出された部分的に破損したサンプルの集合から $k$-疎平均を推定することです。
この状況では、既存の推定ツールは 2 つの重大な課題に直面しています。
まず、それらは推測される計算と統計のトレードオフによって制限されます。これは、計算効率の高いアルゴリズムには $\tilde\Omega(k^2)$ サンプルが必要ですが、統計的に最適なアルゴリズムには $\tilde O(k)$ サンプルしか必要ないことを意味します。

第 2 に、既存の推定器は周囲の次元に合わせて拡張できないため、実用には至っていません。
この論文では、中程度の条件下で両方の課題を克服する単純な平均推定器を紹介します。これは、真の平均を回復するために $\tilde O(k)$ サンプルのみを必要としながら、ほぼ線形の時間とメモリ (両方とも周囲次元に関して) で実行されます。

私たちの方法の中核には、増分学習現象があります。ゼロ要素を任意に小さく保ちながら、平均の上位 $k$ 非ゼロ要素を増分的に学習できる単純な非凸フレームワークを導入します。
既存の推定器とは異なり、私たちの方法ではスパース性レベル $k$ についての事前知識は必要ありません。
一致する情報理論の下限を提供することにより、推定量の最適性を証明します。
最後に、理論的発見を裏付けるために一連のシミュレーションを実行します。
私たちのコードは https://github.com/huihui0902/Robust_mean_estimation で入手できます。

要約(オリジナル)

In this paper, we study the problem of robust sparse mean estimation, where the goal is to estimate a $k$-sparse mean from a collection of partially corrupted samples drawn from a heavy-tailed distribution. Existing estimators face two critical challenges in this setting. First, they are limited by a conjectured computational-statistical tradeoff, implying that any computationally efficient algorithm needs $\tilde\Omega(k^2)$ samples, while its statistically-optimal counterpart only requires $\tilde O(k)$ samples. Second, the existing estimators fall short of practical use as they scale poorly with the ambient dimension. This paper presents a simple mean estimator that overcomes both challenges under moderate conditions: it runs in near-linear time and memory (both with respect to the ambient dimension) while requiring only $\tilde O(k)$ samples to recover the true mean. At the core of our method lies an incremental learning phenomenon: we introduce a simple nonconvex framework that can incrementally learn the top-$k$ nonzero elements of the mean while keeping the zero elements arbitrarily small. Unlike existing estimators, our method does not need any prior knowledge of the sparsity level $k$. We prove the optimality of our estimator by providing a matching information-theoretic lower bound. Finally, we conduct a series of simulations to corroborate our theoretical findings. Our code is available at https://github.com/huihui0902/Robust_mean_estimation.

arxiv情報

著者 Jianhao Ma,Rui Ray Chen,Yinghui He,Salar Fattahi,Wei Hu
発行日 2023-05-24 16:02:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク