Robust Mean Estimation Without a Mean: Dimension-Independent Error in Polynomial Time for Symmetric Distributions

要約

この作業では、モーメント境界なしで分布の平均/位置パラメーターをロバストに推定する問題を研究します。
自然な対称性制約を満たす大規模なクラスの分布について、エラーに次元依存の要因を発生させることなく、その位置を効率的に推定できる一連のアルゴリズムを提供します。
具体的には、敵対者が観察されたサンプルの $\varepsilon$ フラクションを任意に破損できるとします。
すべての $k \in \mathbb{N}$ に対して、時間とサンプル $\tilde{O}({d^k})$ を使用して推定器を設計し、破損レベル $\varepsilon$ に対するエラーの依存性が
$O(\varepsilon^{1-\frac{1}{2k}})$ の加法係数です。
他の問題パラメータへの依存もほぼ最適です。
私たちのクラスには、ガウス分布の広範な一般化である楕円分布だけでなく、任意の対称 1 次元分布の積も含まれています。
例には、製品コーシー分布と多変量 $t$ 分布が含まれます。
特に、最初の瞬間さえ存在しない可能性があります。
このクラスの分布のための最初の効率的なアルゴリズムを提供します。
以前は、分布のモーメントに関する境界仮定の下でのみ知られている結果、特に、対称性がない場合は不可能であることが証明されていました [KSS18、CTBJ22]。
考慮している分布のクラスでは、以前のすべての推定量は、次元に応じて指数時間を必要とするか、エラーを引き起こします。
私たちのアルゴリズムは、フィルタリング技術 [DK22] の一般化に基づいています。
この機械をフーバー損失ベースのアプローチと組み合わせて、ノイズの予測を処理する方法を示します。
さらに、二乗和証明を使用して、一次モーメントのない分布でもアルゴリズムの保証を取得する方法を示します。
このアプローチは、将来の作品で他のアプリケーションを見つける可能性があると信じています。

要約(オリジナル)

In this work, we study the problem of robustly estimating the mean/location parameter of distributions without moment bounds. For a large class of distributions satisfying natural symmetry constraints we give a sequence of algorithms that can efficiently estimate its location without incurring dimension-dependent factors in the error. Concretely, suppose an adversary can arbitrarily corrupt an $\varepsilon$-fraction of the observed samples. For every $k \in \mathbb{N}$, we design an estimator using time and samples $\tilde{O}({d^k})$ such that the dependence of the error on the corruption level $\varepsilon$ is an additive factor of $O(\varepsilon^{1-\frac{1}{2k}})$. The dependence on other problem parameters is also nearly optimal. Our class contains products of arbitrary symmetric one-dimensional distributions as well as elliptical distributions, a vast generalization of the Gaussian distribution. Examples include product Cauchy distributions and multi-variate $t$-distributions. In particular, even the first moment might not exist. We provide the first efficient algorithms for this class of distributions. Previously, such results where only known under boundedness assumptions on the moments of the distribution and in particular, are provably impossible in the absence of symmetry [KSS18, CTBJ22]. For the class of distributions we consider, all previous estimators either require exponential time or incur error depending on the dimension. Our algorithms are based on a generalization of the filtering technique [DK22]. We show how this machinery can be combined with Huber-loss-based approach to work with projections of the noise. Moreover, we show how sum-of-squares proofs can be used to obtain algorithmic guarantees even for distributions without first moment. We believe that this approach may find other application in future works.

arxiv情報

著者 Gleb Novikov,David Steurer,Stefan Tiegel
発行日 2023-02-21 17:52:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, stat.ML パーマリンク