Streaming Algorithms for High-Dimensional Robust Statistics



– 高次元頑健統計のストリーミングモデルにおけるタスクを研究する。
– 以前のアルゴリズムは、データセット全体を保存する必要があり、次元数に対して少なくとも二次のメモリを必要とするため、問題がある。
– 本研究では、高次元頑健統計のための初めての効率的なストリーミングアルゴリズムを開発し、メモリ要件が最適値に近くなるように努力する。
– 主な結果は、(Huberの汚染モデルの強化版における)高次元頑健平均推定に対するストリーミングアルゴリズムであり、次元に対してほぼ線形のスペース・コンプレックスを持ち、最適値に近いエラー保証を提供する。
– 帰結として、高次元頑健共分散推定、頑健回帰、そしてより一般的な頑健な確率的最適化に対する、近似最適のストリーミングアルゴリズムが得られる。


We study high-dimensional robust statistics tasks in the streaming model. A recent line of work obtained computationally efficient algorithms for a range of high-dimensional robust estimation tasks. Unfortunately, all previous algorithms require storing the entire dataset, incurring memory at least quadratic in the dimension. In this work, we develop the first efficient streaming algorithms for high-dimensional robust statistics with near-optimal memory requirements (up to logarithmic factors). Our main result is for the task of high-dimensional robust mean estimation in (a strengthening of) Huber’s contamination model. We give an efficient single-pass streaming algorithm for this task with near-optimal error guarantees and space complexity nearly-linear in the dimension. As a corollary, we obtain streaming algorithms with near-optimal space complexity for several more complex tasks, including robust covariance estimation, robust regression, and more generally robust stochastic optimization.


著者 Ilias Diakonikolas,Daniel M. Kane,Ankit Pensia,Thanasis Pittas
発行日 2023-05-03 17:59:26+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.DS, cs.LG, math.ST, stat.ML, stat.TH