Robust Mean Estimation Without Moments for Symmetric Distributions

要約

モーメントの仮定を使わずに平均または位置パラメータをロバストに推定する問題を研究します。
対称分布の大規模なクラスに対して、ガウス設定と同じ誤差が効率的に達成できることを示します。
私たちが研究する分布には、楕円分布だけでなく、積コーシー分布などの任意の対称 1 次元分布の積も含まれます。
既知の散布 (共分散) 行列を持つ積分布と楕円分布について、$\varepsilon$ で破損したサンプルが与えられた場合、少なくとも $1-\delta$ の確率でその位置を誤差 $O(\varepsilon \
$\tfrac{d\log(d) + \log(1/\delta)}{\varepsilon^2 \log(1/\varepsilon)}$ サンプルを使用した sqrt{\log(1/\varepsilon)})$

この結果は、ガウス分布の最もよく知られている保証と既知の SQ 下限 ($\log(d)$ 係数まで) と一致します。
未知の散乱 (共分散) 行列を持つ楕円分布については、この最適な誤差に近づく一連の効率的なアルゴリズムを提案します。
具体的には、$k \in \mathbb{N}$ ごとに、時間とサンプル $\tilde{O}({d^k})$ を使用して推定器を設計し、誤差 $O(\varepsilon^{1-\frac) を達成します
{1}{2k}})$。
これは、$k$ までの確実に制限された順序の瞬間を想定した場合の誤差と実行時間の保証と一致します。
共分散が不明な場合、(一般的な) サブガウス分布では $o(\sqrt{\varepsilon})$ の誤差範囲さえ不明です。
私たちのアルゴリズムは、よく知られたフィルタリング技術の一般化に基づいています。
この機械をフーバー損失ベースの手法と組み合わせて、初期ノイズよりも適切に動作するノイズの投影を処理する方法を示します。
さらに、最初の瞬間のない分布であってもアルゴリズムの保証を得るために SoS 証明を使用する方法を示します。
私たちは、このアプローチが将来の研究で他の応用が見つかるかもしれないと信じています。

要約(オリジナル)

We study the problem of robustly estimating the mean or location parameter without moment assumptions. We show that for a large class of symmetric distributions, the same error as in the Gaussian setting can be achieved efficiently. The distributions we study include products of arbitrary symmetric one-dimensional distributions, such as product Cauchy distributions, as well as elliptical distributions. For product distributions and elliptical distributions with known scatter (covariance) matrix, we show that given an $\varepsilon$-corrupted sample, we can with probability at least $1-\delta$ estimate its location up to error $O(\varepsilon \sqrt{\log(1/\varepsilon)})$ using $\tfrac{d\log(d) + \log(1/\delta)}{\varepsilon^2 \log(1/\varepsilon)}$ samples. This result matches the best-known guarantees for the Gaussian distribution and known SQ lower bounds (up to the $\log(d)$ factor). For elliptical distributions with unknown scatter (covariance) matrix, we propose a sequence of efficient algorithms that approaches this optimal error. Specifically, for every $k \in \mathbb{N}$, we design an estimator using time and samples $\tilde{O}({d^k})$ achieving error $O(\varepsilon^{1-\frac{1}{2k}})$. This matches the error and running time guarantees when assuming certifiably bounded moments of order up to $k$. For unknown covariance, such error bounds of $o(\sqrt{\varepsilon})$ are not even known for (general) sub-Gaussian distributions. Our algorithms are based on a generalization of the well-known filtering technique. We show how this machinery can be combined with Huber-loss-based techniques to work with projections of the noise that behave more nicely than the initial noise. Moreover, we show how SoS proofs can be used to obtain algorithmic guarantees even for distributions without a first moment. We believe that this approach may find other applications in future works.

arxiv情報

著者 Gleb Novikov,David Steurer,Stefan Tiegel
発行日 2023-11-08 18:49:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, stat.ML パーマリンク