Optimal Robust Estimation under Local and Global Corruptions: Stronger Adversary and Smaller Error

要約

アルゴリズムによる堅牢な統計は伝統的に、サンプルのごく一部が恣意的に破損する汚染モデルに焦点を当ててきました。
我々は、2 種類の破損を組み合わせた最近の汚染モデルを検討します: (i) 古典的なロバスト統計のような任意の外れ値のごく一部、および (ii) サンプルが平均して制限されたシフトを受ける可能性がある局所的摂動。
各ノイズ モデルは個別にはよく理解されていますが、結合された汚染モデルはアルゴリズムに新たな課題をもたらし、部分的な結果しかわかっていません。
既存の効率的なアルゴリズムは、次の 2 つの点で制限されています。(i) 局所的な摂動の弱い概念に対してのみ機能する、および (ii) 等方性サブガウス分布 (とりわけ) に対して次善の誤差が得られる。
後者の制限により、[NGS24、COLT’24] は、誤差を改善するのは実際には計算的に難しいのではないかという仮説を立てました。
おそらく驚くべきことに、我々は、さらに \emph{より強力な} 局所摂動モデル (Wasserstein 計量ではなくスライスされた Wasserstein 計量) のもとで、理論的に最適な情報誤差が多項式時間で実際に達成できることを示しました。
特に、私たちの分析では、安定性ベースのロバスト平均推定器のファミリー全体が、複合汚染モデルに対してブラックボックス方式で最適に動作し続けていることが明らかになりました。
この一般化は、データ破損の具体的な形式が事前にわからない現実のシナリオで特に役立ちます。
また、複合汚染モデルにおける分布学習と主成分分析のための効率的なアルゴリズムも紹介します。

要約(オリジナル)

Algorithmic robust statistics has traditionally focused on the contamination model where a small fraction of the samples are arbitrarily corrupted. We consider a recent contamination model that combines two kinds of corruptions: (i) small fraction of arbitrary outliers, as in classical robust statistics, and (ii) local perturbations, where samples may undergo bounded shifts on average. While each noise model is well understood individually, the combined contamination model poses new algorithmic challenges, with only partial results known. Existing efficient algorithms are limited in two ways: (i) they work only for a weak notion of local perturbations, and (ii) they obtain suboptimal error for isotropic subgaussian distributions (among others). The latter limitation led [NGS24, COLT’24] to hypothesize that improving the error might, in fact, be computationally hard. Perhaps surprisingly, we show that information theoretically optimal error can indeed be achieved in polynomial time, under an even \emph{stronger} local perturbation model (the sliced-Wasserstein metric as opposed to the Wasserstein metric). Notably, our analysis reveals that the entire family of stability-based robust mean estimators continues to work optimally in a black-box manner for the combined contamination model. This generalization is particularly useful in real-world scenarios where the specific form of data corruption is not known in advance. We also present efficient algorithms for distribution learning and principal component analysis in the combined contamination model.

arxiv情報

著者 Thanasis Pittas,Ankit Pensia
発行日 2024-10-22 17:51:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.ST, stat.ML, stat.TH パーマリンク