要約
スパース主成分分析 (sPCA) は、高次元データセットの分散を解釈可能な方法で説明する特徴の組み合わせ、つまり主成分 (PC) を取得するための基本的な手法です。
これには、スパース性と直交性が制約された凸最大化問題を解くことが含まれますが、これは計算上非常に困難です。
既存の研究のほとんどは、1 つのスパース PC を反復計算して共分散行列をデフレートするなどの方法でスパース PCA に取り組んでいますが、この方法では、複数の相互に直交する PC を求める場合に、結果として得られる解の直交性はおろか、最適性も保証されません。
私たちは、直交性条件をランク制約として再定式化し、スパース性とランク制約を同時に最適化することで、この状況に挑戦します。
高品質の上限を提供するためにタイトな半定値緩和を設計します。これは、各 PC の個別のスパース性が指定されるときに追加の 2 次円錐不等式によって強化されます。
さらに、サポートの関数として説明される分散の最大量の組み合わせの上限を導き出します。
これらの緩和と境界を利用して、p = 100 または 1000 の特徴と r \in { を持つ現実世界のデータセットに対して、0% ~ 15% 程度の境界ギャップを持つ解を取得する正確な方法と丸めメカニズムを提案します。
2, 3} コンポーネント。
数値的には、私たちのアルゴリズムは説明された分散の割合の点で最もパフォーマンスの高い手法と一致し (場合によってはそれを上回り)、体系的に疎で直交した PC を返します。
対照的に、デフレーションのような既存の手法は、データが疎な直交 PC に従って生成された場合でも、直交性制約に違反する解を返すことがわかりました。
まとめると、私たちのアプローチは、複数のコンポーネントによる疎な PCA 問題を、実際に扱いやすい方法で証明可能な (ほぼ) 最適化するまで解決します。
要約(オリジナル)
Sparse Principal Component Analysis (sPCA) is a cardinal technique for obtaining combinations of features, or principal components (PCs), that explain the variance of high-dimensional datasets in an interpretable manner. This involves solving a sparsity and orthogonality constrained convex maximization problem, which is extremely computationally challenging. Most existing works address sparse PCA via methods-such as iteratively computing one sparse PC and deflating the covariance matrix-that do not guarantee the orthogonality, let alone the optimality, of the resulting solution when we seek multiple mutually orthogonal PCs. We challenge this status by reformulating the orthogonality conditions as rank constraints and optimizing over the sparsity and rank constraints simultaneously. We design tight semidefinite relaxations to supply high-quality upper bounds, which we strengthen via additional second-order cone inequalities when each PC’s individual sparsity is specified. Further, we derive a combinatorial upper bound on the maximum amount of variance explained as a function of the support. We exploit these relaxations and bounds to propose exact methods and rounding mechanisms that, together, obtain solutions with a bound gap on the order of 0%-15% for real-world datasets with p = 100s or 1000s of features and r \in {2, 3} components. Numerically, our algorithms match (and sometimes surpass) the best performing methods in terms of fraction of variance explained and systematically return PCs that are sparse and orthogonal. In contrast, we find that existing methods like deflation return solutions that violate the orthogonality constraints, even when the data is generated according to sparse orthogonal PCs. Altogether, our approach solves sparse PCA problems with multiple components to certifiable (near) optimality in a practically tractable fashion.
arxiv情報
著者 | Ryan Cory-Wright,Jean Pauphilet |
発行日 | 2023-10-31 16:10:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google