Sparse PCA Beyond Covariance Thresholding

要約

スパース PCA の Wishart モデルでは、$d$ 次元のガウス分布 $N({0, Id + \beta vv^\top})$ から独立して抽出された $n$ サンプル $Y_1,\ldots, Y_n$ が与えられます
ここで、$\beta > 0$ および $v\in \mathbb{R}^d$ は $k$-sparse 単位ベクトルであり、$v$ (符号まで) を回復したいと考えています。
$n \ge \Omega(d)$ の場合、$t \ll k$ ごとに、$n\cdot d^{O(t)}$ の時間内にこの問題を解くアルゴリズムが存在することを示します。
\[ \beta \gtrsim \frac{k}{\sqrt{nt}}\sqrt{\ln({2 + td/k^2})}\,.
\] この作業の前に、レジーム $k\approx \sqrt{d}$ での最良の多項式時間アルゴリズムは、\emph{Covariance Thresholding} ([KNV15a] で提案され、[DM14] で分析) と呼ばれ、$\
beta \gtrsim \frac{k}{\sqrt{n}}\sqrt{\ln({2 + d/k^2})}$.
定数 $t$ が十分に大きい場合、このアルゴリズムは多項式時間で実行され、共分散しきい値法よりも優れた保証があります。
このような保証を持つ以前に知られているアルゴリズムでは、準多項式時間 $d^{O(\log d)}$ が必要でした。
さらに、[dKNS20] で研究されている敵対的摂動を伴うスパース PCA でこの手法が機能することを示します。
このモデルは、スパース PCA だけでなく、スパース植え付けベクトル問題を含む、以前の研究で研究された他の問題も一般化します。
結果として、いくつかの体制で最先端技術よりも優れた保証を持つ、まばらに植えられたベクトル問題のための多項式時間アルゴリズムを提供します。
私たちのアプローチは、スパース PCA の Wigner モデルでも機能します。
さらに、私たちの手法を、対称的なヘビー テール ノイズを持つスパース PCA に関する最近の結果と組み合わせることが可能であることを示します [dNNS22]。
特に、レジーム $k \approx \sqrt{d}$ では、[dNNS22] のアルゴリズムを使用しながら、対称的なヘビー テール ノイズで機能する最初の多項式時間アルゴリズムを取得します。
これらの設定では準多項式時間が必要です。

要約(オリジナル)

In the Wishart model for sparse PCA we are given $n$ samples $Y_1,\ldots, Y_n$ drawn independently from a $d$-dimensional Gaussian distribution $N({0, Id + \beta vv^\top})$, where $\beta > 0$ and $v\in \mathbb{R}^d$ is a $k$-sparse unit vector, and we wish to recover $v$ (up to sign). We show that if $n \ge \Omega(d)$, then for every $t \ll k$ there exists an algorithm running in time $n\cdot d^{O(t)}$ that solves this problem as long as \[ \beta \gtrsim \frac{k}{\sqrt{nt}}\sqrt{\ln({2 + td/k^2})}\,. \] Prior to this work, the best polynomial time algorithm in the regime $k\approx \sqrt{d}$, called \emph{Covariance Thresholding} (proposed in [KNV15a] and analyzed in [DM14]), required $\beta \gtrsim \frac{k}{\sqrt{n}}\sqrt{\ln({2 + d/k^2})}$. For large enough constant $t$ our algorithm runs in polynomial time and has better guarantees than Covariance Thresholding. Previously known algorithms with such guarantees required quasi-polynomial time $d^{O(\log d)}$. In addition, we show that our techniques work with sparse PCA with adversarial perturbations studied in [dKNS20]. This model generalizes not only sparse PCA, but also other problems studied in prior works, including the sparse planted vector problem. As a consequence, we provide polynomial time algorithms for the sparse planted vector problem that have better guarantees than the state of the art in some regimes. Our approach also works with the Wigner model for sparse PCA. Moreover, we show that it is possible to combine our techniques with recent results on sparse PCA with symmetric heavy-tailed noise [dNNS22]. In particular, in the regime $k \approx \sqrt{d}$ we get the first polynomial time algorithm that works with symmetric heavy-tailed noise, while the algorithm from [dNNS22]. requires quasi-polynomial time in these settings.

arxiv情報

著者 Gleb Novikov
発行日 2023-02-20 18:45:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク