Efficient Multivariate Robust Mean Estimation Under Mean-Shift Contamination


この汚染モデルでは、$ \ mathbb {r}^d $ generated i.i.dで一連のポイントが与えられます。
パラメーター$ \ alpha <1/2 $の場合、$ i $ -th sample $ x_i $は次のように取得されます。 、i)$、ここで、$ \ mu \ in \ mathbb {r}^d $はターゲット平均です。 確率$ \ alpha $で、$ x_i $は$ \ mathcal {n}(z_i、i)$から描画されます。ここで、$ z_i $は不明で潜在的に任意です。 以前の研究では、このタスクの情報理論的限界を特徴づけました。 具体的には、核の汚染とは対照的に、平均シフト汚染の存在下で一貫した推定が可能であることが示されました。 一方、平均シフトモデルのすべての既知の堅牢な推定器は、次元で指数関数的に実行されます。 ここでは、一定の外れ値に耐えることができる平均シフト汚染を伴う高次元の堅牢な平均推定のための最初の計算効率のアルゴリズムを示します。 特に、私たちのアルゴリズムには、最適なサンプルの複雑さがあり、サンプル総収縮時間で実行され、目的の正確性にターゲット平均を近似しています。 概念的には、私たちの結果は、完全に敵対的な設定とランダムな設定の間にある自然騒音モデルに関する推論を研究する一連の作業に貢献しています。


We study the algorithmic problem of robust mean estimation of an identity covariance Gaussian in the presence of mean-shift contamination. In this contamination model, we are given a set of points in $\mathbb{R}^d$ generated i.i.d. via the following process. For a parameter $\alpha<1/2$, the $i$-th sample $x_i$ is obtained as follows: with probability $1-\alpha$, $x_i$ is drawn from $\mathcal{N}(\mu, I)$, where $\mu \in \mathbb{R}^d$ is the target mean; and with probability $\alpha$, $x_i$ is drawn from $\mathcal{N}(z_i, I)$, where $z_i$ is unknown and potentially arbitrary. Prior work characterized the information-theoretic limits of this task. Specifically, it was shown that, in contrast to Huber contamination, in the presence of mean-shift contamination consistent estimation is possible. On the other hand, all known robust estimators in the mean-shift model have running times exponential in the dimension. Here we give the first computationally efficient algorithm for high-dimensional robust mean estimation with mean-shift contamination that can tolerate a constant fraction of outliers. In particular, our algorithm has near-optimal sample complexity, runs in sample-polynomial time, and approximates the target mean to any desired accuracy. Conceptually, our result contributes to a growing body of work that studies inference with respect to natural noise models lying in between fully adversarial and random settings.


著者 Ilias Diakonikolas,Giannis Iakovidis,Daniel M. Kane,Thanasis Pittas
発行日 2025-02-20 17:53:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.ST, stat.ML, stat.TH パーマリンク