Outlier-robust Mean Estimation near the Breakdown Point via Sum-of-Squares

要約

$\varepsilon$ 部分の敵対的外れ値が存在する場合に高次元分布の平均を推定する問題を再検討します。
$\varepsilon$ が十分に小さい定数以下の場合、以前の研究では最適な誤り率を効率的に \cite{diakonikolas2018robustly, kothari2018robust} 達成できます。
$\varepsilon$ がブレークダウン ポイント $\frac{1}{2}$ に近づくと、以前のすべてのアルゴリズムでは最適化されていないエラー率または指数関数的な実行時間が発生します。
この論文では、\cite{kothari2018robust} で導入された正規二乗和プログラムの新しい分析を行い、このプログラムがすべての $\varepsilon \in[0,\frac{1}{
2})$。
私たちの結果の重要な要素は、以前の研究のような統計的距離ではなく、分布間の重複に焦点を当てた、ロバストな平均推定のための新しい識別可能性の証明です。
この証明を二乗和証明システム内で捕捉し、アルゴリズム パラダイム \cite{raghavendra2018high} に対する二乗和証明を使用する効率的なアルゴリズムを取得します。

要約(オリジナル)

We revisit the problem of estimating the mean of a high-dimensional distribution in the presence of an $\varepsilon$-fraction of adversarial outliers. When $\varepsilon$ is at most some sufficiently small constant, previous works can achieve optimal error rate efficiently \cite{diakonikolas2018robustly, kothari2018robust}. As $\varepsilon$ approaches the breakdown point $\frac{1}{2}$, all previous algorithms incur either sub-optimal error rates or exponential running time. In this paper we give a new analysis of the canonical sum-of-squares program introduced in \cite{kothari2018robust} and show that this program efficiently achieves optimal error rate for all $\varepsilon \in[0,\frac{1}{2})$. The key ingredient for our results is a new identifiability proof for robust mean estimation that focuses on the overlap between the distributions instead of their statistical distance as in previous works. We capture this proof within the sum-of-squares proof system, thus obtaining efficient algorithms using the sum-of-squares proofs to algorithms paradigm \cite{raghavendra2018high}.

arxiv情報

著者 Hongjie Chen,Deepak Narayanan Sridharan,David Steurer
発行日 2024-11-21 16:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, stat.ML パーマリンク