要約
このペーパーでは、外れ値を使用した主成分分析 (PCA) の新しいアルゴリズムを紹介します。
計算幾何学の手法、特に高次ボロノイ図を利用して、外れ値が存在する場合でも PCA に最適な部分空間に移動します。
このアプローチでは、時間計算量 $n^{d+\mathcal{O}(1)}\text{poly}(n,d)$ の最適解が得られます。
さらに、複雑度 $2^{\mathcal{O}(r(d-r))} \times \text{poly}(n, d)$ のランダム化アルゴリズムを提示します。
このアルゴリズムは、グラスマン多様体に関して特徴付けられた部分空間をサンプリングします。
このようなサンプリング方法を採用することで、成功確率 $(1 – \delta)^T$ で最適な部分空間をキャプチャできる可能性が高くなります。
ここで、$\delta$ は、サンプリングされた部分空間に最適解が含まれない確率を表し、$T$ は、$2^{r(d-r)}$ に比例する、サンプリングされた部分空間の数です。
高次のボロノイ図とグラスマニアンベースのサンプリングを使用すると、特に大規模なデータセットや高次元の設定を処理する場合に、より明確な概念的経路と実用的な利点が得られます。
要約(オリジナル)
In this paper, we introduce new algorithms for Principal Component Analysis (PCA) with outliers. Utilizing techniques from computational geometry, specifically higher-degree Voronoi diagrams, we navigate to the optimal subspace for PCA even in the presence of outliers. This approach achieves an optimal solution with a time complexity of $n^{d+\mathcal{O}(1)}\text{poly}(n,d)$. Additionally, we present a randomized algorithm with a complexity of $2^{\mathcal{O}(r(d-r))} \times \text{poly}(n, d)$. This algorithm samples subspaces characterized in terms of a Grassmannian manifold. By employing such sampling method, we ensure a high likelihood of capturing the optimal subspace, with the success probability $(1 – \delta)^T$. Where $\delta$ represents the probability that a sampled subspace does not contain the optimal solution, and $T$ is the number of subspaces sampled, proportional to $2^{r(d-r)}$. Our use of higher-degree Voronoi diagrams and Grassmannian based sampling offers a clearer conceptual pathway and practical advantages, particularly in handling large datasets or higher-dimensional settings.
arxiv情報
著者 | Sajjad Hashemian,Mohammad Saeed Arvenaghi,Ebrahim Ardeshir-Larijani |
発行日 | 2024-08-13 13:05:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google