Sparse PCA with False Discovery Rate Controlled Variable Selection

要約

スパース主成分分析 (PCA) は、大規模な次元のデータをより低い次元の線形部分空間にマッピングすることを目的としています。
読み込みベクトルをスパースに強制することにより、次元削減と変数選択の二重の義務を実行します。
スパース PCA アルゴリズムは通常、説明された分散と負荷ベクトルのスパース性 (つまり、選択された変数の数) の間のトレードオフとして表現されます。
説明された分散が高いことは必ずしも関連する情報と同義ではないため、これらの方法は無関係な変数を選択する傾向があります。
この問題を克服するために、偽発見率 (FDR) によって駆動されるスパース PCA の代替定式化を提案します。
次に、Terminated-Random Experiments (T-Rex) セレクターを利用して、ローディング ベクターの FDR 制御サポートを自動的に決定します。
結果として得られる T-Rex PCA の主な利点は、スパース パラメーターの調整が必要ないことです。
数値実験と株式市場データの例では、大幅なパフォーマンスの向上が実証されています。

要約(オリジナル)

Sparse principal component analysis (PCA) aims at mapping large dimensional data to a linear subspace of lower dimension. By imposing loading vectors to be sparse, it performs the double duty of dimension reduction and variable selection. Sparse PCA algorithms are usually expressed as a trade-off between explained variance and sparsity of the loading vectors (i.e., number of selected variables). As a high explained variance is not necessarily synonymous with relevant information, these methods are prone to select irrelevant variables. To overcome this issue, we propose an alternative formulation of sparse PCA driven by the false discovery rate (FDR). We then leverage the Terminating-Random Experiments (T-Rex) selector to automatically determine an FDR-controlled support of the loading vectors. A major advantage of the resulting T-Rex PCA is that no sparsity parameter tuning is required. Numerical experiments and a stock market data example demonstrate a significant performance improvement.

arxiv情報

著者 Jasin Machkour,Arnaud Breloy,Michael Muma,Daniel P. Palomar,Frédéric Pascal
発行日 2024-01-16 14:07:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク