要約
$k$-主成分分析 ($k$-PCA) 問題は、データ分析や次元削減アプリケーションで広く使用されている基本的なアルゴリズムのプリミティブです。
統計的設定における $k$-PCA の目的は、サンプルを介してのみ暗黙的にアクセスできる分布の共分散行列の最上位固有空間を特定することです。
これらの暗黙の設定に動機付けられて、$k$-PCA アルゴリズムを設計するためのフレームワークとしてブラックボックス デフレーション法を分析します。そこでは、近似的な上位固有ベクトルを返すブラックボックス $1$-PCA オラクルを介した未知のターゲット行列へのアクセスをモデル化します。
、近似に関する 2 つの一般的な概念の下で。
$k$-PCA アルゴリズム設計へのリダクションベースのアプローチはおそらく最も自然であるにもかかわらず、$1$-PCA オラクルを $k$ 回再帰的に呼び出すこのようなブラックボックス手法は、以前はあまり理解されていませんでした。
私たちの主な貢献は、$k$-PCA のデフレ法の近似パラメータ劣化に関する境界が大幅にシャープになったことです。
私たちが ePCA (エネルギー PCA) と呼ぶ二次形式の近似概念について、デフレ法ではパラメータ損失が発生しないことを示します。
cPCA (相関 PCA) と呼ばれる十分に研究された代替の近似概念については、デフレ法が実行可能なパラメータ領域を厳密に特徴付けます。
さらに、すべての実行可能なレジームにおいて、$k$-cPCA デフレアルゴリズムは、定数 $k$ に対して漸近的なパラメータ損失を被らないことを示します。
私たちはフレームワークを適用して、データセットの汚染に対して堅牢な最先端の $k$-PCA アルゴリズムを取得し、サンプルの複雑さと近似の品質の両方において以前の研究を改善します。
要約(オリジナル)
The $k$-principal component analysis ($k$-PCA) problem is a fundamental algorithmic primitive that is widely-used in data analysis and dimensionality reduction applications. In statistical settings, the goal of $k$-PCA is to identify a top eigenspace of the covariance matrix of a distribution, which we only have implicit access to via samples. Motivated by these implicit settings, we analyze black-box deflation methods as a framework for designing $k$-PCA algorithms, where we model access to the unknown target matrix via a black-box $1$-PCA oracle which returns an approximate top eigenvector, under two popular notions of approximation. Despite being arguably the most natural reduction-based approach to $k$-PCA algorithm design, such black-box methods, which recursively call a $1$-PCA oracle $k$ times, were previously poorly-understood. Our main contribution is significantly sharper bounds on the approximation parameter degradation of deflation methods for $k$-PCA. For a quadratic form notion of approximation we term ePCA (energy PCA), we show deflation methods suffer no parameter loss. For an alternative well-studied approximation notion we term cPCA (correlation PCA), we tightly characterize the parameter regimes where deflation methods are feasible. Moreover, we show that in all feasible regimes, $k$-cPCA deflation algorithms suffer no asymptotic parameter loss for any constant $k$. We apply our framework to obtain state-of-the-art $k$-PCA algorithms robust to dataset contamination, improving prior work both in sample complexity and approximation quality.
arxiv情報
著者 | Arun Jambulapati,Syamantak Kumar,Jerry Li,Shourya Pandey,Ankit Pensia,Kevin Tian |
発行日 | 2024-03-07 02:12:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google