Optimal vintage factor analysis with deflation varimax

要約

ヴィンテージ因子分析は、因子分析の重要なタイプの 1 つであり、最初に元のデータの低次元表現を見つけ、次に、回転された低次元表現が科学的に意味を持つような回転を求めることを目的としています。
最も広く使用されているヴィンテージ因子分析は主成分分析 (PCA) で、その後にバリマックス回転が続きます。
その人気にもかかわらず、主にバリマックス回転は一連の直交行列に対する非凸最適化を解く必要があるため、今日まで理論的な保証はほとんど提供されていません。
この論文では、直交行列の各行を順番に解くデフレーション バリマックス手順を提案します。
正味の計算利得と柔軟性に加えて、より広い文脈で提案された手順の理論的保証を完全に確立することができます。
この新しいデフレーション バリマックスを PCA 後の 2 番目のステップとして採用し、この 2 ステップの手順を一般的なクラスの因子モデルの下でさらに分析します。
私たちの結果は、信号対雑音比 (SNR) が中程度または大きい場合に、ミニマックス最適レートで因子負荷行列を推定することを示しています。
低 SNR 領域では、因子モデルの下で付加ノイズが構造化されている場合に、PCA とデフレーション バリマックスを使用する場合に比べて改善の可能性を提供します。
修正された手順は、すべての SNR レジームにおいてミニマックス最適であることが示されています。
私たちの理論は有限サンプルに対して有効であり、潜在因子の数がサンプルサイズとともに増加することを可能にし、周囲次元もサンプルサイズとともに増加するか、サンプルサイズを超えて増加することさえ可能にします。
広範なシミュレーションと実際のデータ分析により、理論的発見がさらに裏付けられます。

要約(オリジナル)

Vintage factor analysis is one important type of factor analysis that aims to first find a low-dimensional representation of the original data, and then to seek a rotation such that the rotated low-dimensional representation is scientifically meaningful. The most widely used vintage factor analysis is the Principal Component Analysis (PCA) followed by the varimax rotation. Despite its popularity, little theoretical guarantee can be provided to date mainly because varimax rotation requires to solve a non-convex optimization over the set of orthogonal matrices. In this paper, we propose a deflation varimax procedure that solves each row of an orthogonal matrix sequentially. In addition to its net computational gain and flexibility, we are able to fully establish theoretical guarantees for the proposed procedure in a broader context. Adopting this new deflation varimax as the second step after PCA, we further analyze this two step procedure under a general class of factor models. Our results show that it estimates the factor loading matrix in the minimax optimal rate when the signal-to-noise-ratio (SNR) is moderate or large. In the low SNR regime, we offer possible improvement over using PCA and the deflation varimax when the additive noise under the factor model is structured. The modified procedure is shown to be minimax optimal in all SNR regimes. Our theory is valid for finite sample and allows the number of the latent factors to grow with the sample size as well as the ambient dimension to grow with, or even exceed, the sample size. Extensive simulation and real data analysis further corroborate our theoretical findings.

arxiv情報

著者 Xin Bing,Dian Jin,Yuqian Zhang
発行日 2024-11-13 16:42:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, eess.SP, math.IT, stat.ML パーマリンク