要約
タイトル:Outlier-Robust PCAのためのほぼ線形時間とストリーミングアルゴリズム
要約:
– PCAを研究している。
– PCAとは、分布からのデータセットが与えられたときに、ユニットベクトルvを見つけることである。このとき、vに沿って投影された分布の分散を近似的に最大化する。
– 一般的な推定量は、データに異常値が含まれている場合、大きく失敗するため、異常値に耐えうるロバストPCAの問題が生じる。
– 最近の研究では、異常値に耐えうるロバストPCAの計算効率の高いアルゴリズムが開発されているが、超線形時間を要するか、サブオプティマルなエラー保証を持っている。
– この研究の主な貢献は、最適エラー保証を持つほぼ線形時間のロバストPCAアルゴリズムを開発することである。また、次元に対してほぼ線形のメモリ使用量を持つストリーミングロバストPCAアルゴリズムも開発する。
要点:
– PCAとは、データセットからユニットベクトルを見つけ、そのベクトルに沿った投影によって分布の分散を最大化することである。
– 異常値に耐えうるロバストPCAの問題が生じる。
– 計算効率の高いアルゴリズムがあるが、超線形時間を要するか、サブオプティマルなエラー保証を持つ。
– ほぼ線形時間のロバストPCAアルゴリズムを開発し、最適エラー保証を持つ。
– 次元に対してほぼ線形のメモリ使用量を持つストリーミングロバストPCAアルゴリズムも開発する。
要約(オリジナル)
We study principal component analysis (PCA), where given a dataset in $\mathbb{R}^d$ from a distribution, the task is to find a unit vector $v$ that approximately maximizes the variance of the distribution after being projected along $v$. Despite being a classical task, standard estimators fail drastically if the data contains even a small fraction of outliers, motivating the problem of robust PCA. Recent work has developed computationally-efficient algorithms for robust PCA that either take super-linear time or have sub-optimal error guarantees. Our main contribution is to develop a nearly-linear time algorithm for robust PCA with near-optimal error guarantees. We also develop a single-pass streaming algorithm for robust PCA with memory usage nearly-linear in the dimension.
arxiv情報
| 著者 | Ilias Diakonikolas,Daniel M. Kane,Ankit Pensia,Thanasis Pittas |
| 発行日 | 2023-05-04 04:45:16+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI