要約
スパース主成分分析(SPCA)は、高次元データセットの分散を解釈可能な方法で説明する、機能、または主成分(PC)の組み合わせを取得するための基本的な手法です。
これには、スパース性と直交の制約のある凸最大化問題を解決することが含まれます。これは非常に計算的に困難です。
ほとんどの既存の作業は、1つのスパースPCを繰り返し計算し、共分散行列をデフレットするように、方法などを介してスパースPCAに対処します。
直交条件をランクの制約として再定式化し、スパース性とランクの制約を同時に最適化することにより、このステータスに挑戦します。
高品質の上限を供給するために、緊密な半定型緩和を設計します。これは、各PCの個々のスパースが指定されている場合に、追加の2次円円錐の不平等を介して強化します。
さらに、サポートの関数として説明されている最大分散量の組み合わせ上限を導き出します。
これらのリラクゼーションと境界を活用して、P = 100または1000sの機能とR \ in {2、3}コンポーネントを持つ実際のデータセットで、0%-15%の範囲でバウンドギャップを持つソリューションを併用する正確な方法と丸めメカニズムを提案します。
数値的には、アルゴリズムは、まばらで直交するPCを説明し、体系的に返す分散の割合の点で、最高のパフォーマンスの方法と一致します(時には上回ります)。
対照的に、DEFLATIONのような既存のメソッドは、まばらな直交PCに従ってデータが生成された場合でも、直交の制約に違反するソリューションを返すことができます。
全体として、私たちのアプローチは、複数のコンポーネントを備えたまばらなPCAの問題を、実質的に扱いやすい方法で認証可能な(近い)最適性を解決します。
要約(オリジナル)
Sparse Principal Component Analysis (sPCA) is a cardinal technique for obtaining combinations of features, or principal components (PCs), that explain the variance of high-dimensional datasets in an interpretable manner. This involves solving a sparsity and orthogonality constrained convex maximization problem, which is extremely computationally challenging. Most existing works address sparse PCA via methods-such as iteratively computing one sparse PC and deflating the covariance matrix-that do not guarantee the orthogonality, let alone the optimality, of the resulting solution when we seek multiple mutually orthogonal PCs. We challenge this status by reformulating the orthogonality conditions as rank constraints and optimizing over the sparsity and rank constraints simultaneously. We design tight semidefinite relaxations to supply high-quality upper bounds, which we strengthen via additional second-order cone inequalities when each PC’s individual sparsity is specified. Further, we derive a combinatorial upper bound on the maximum amount of variance explained as a function of the support. We exploit these relaxations and bounds to propose exact methods and rounding mechanisms that, together, obtain solutions with a bound gap on the order of 0%-15% for real-world datasets with p = 100s or 1000s of features and r \in {2, 3} components. Numerically, our algorithms match (and sometimes surpass) the best performing methods in terms of fraction of variance explained and systematically return PCs that are sparse and orthogonal. In contrast, we find that existing methods like deflation return solutions that violate the orthogonality constraints, even when the data is generated according to sparse orthogonal PCs. Altogether, our approach solves sparse PCA problems with multiple components to certifiable (near) optimality in a practically tractable fashion.
arxiv情報
著者 | Ryan Cory-Wright,Jean Pauphilet |
発行日 | 2025-03-21 14:52:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google