Optimal vintage factor analysis with deflation varimax

要約

ヴィンテージ因子分析は、因子分析の重要なタイプの 1 つであり、最初に元のデータの低次元表現を見つけ、次に、回転された低次元表現が科学的に意味を持つような回転を求めることを目的としています。
おそらく最も広く使用されているヴィンテージ因子分析は、主成分分析 (PCA) とそれに続くバリマックス回転です。
その人気にもかかわらず、主にバリマックス回転では一連の直交行列に対する非凸最適化を解く必要があるため、理論的な保証はほとんどありません。
この論文では、直交行列の各行を順番に解くデフレーション バリマックス手順を提案します。
正味の計算利得と柔軟性に加えて、広範な状況において提案された手順の理論的保証を完全に確立することができます。
この新しいバリマックス アプローチを PCA 後の 2 番目のステップとして採用し、この 2 ステップの手順を一般的なクラスの因子モデルの下でさらに分析します。
私たちの結果は、信号対雑音比 (SNR) が中程度または大きい場合に、因子負荷行列を最適なレートで推定することを示しています。
低 SNR 領域では、因子モデルの下で付加ノイズが構造化されている場合に、PCA と収縮手順を使用する場合に比べて改善の可能性を提供します。
修正された手順は、すべての SNR レジームで最適であることが示されています。
私たちの理論は有限サンプルに対して有効であり、潜在因子の数がサンプル サイズに応じて増加するだけでなく、周囲の次元もサンプル サイズに応じて増加するか、サンプル サイズを超えて増加することを可能にします。
広範なシミュレーションと実際のデータ分析により、理論的発見がさらに裏付けられます。

要約(オリジナル)

Vintage factor analysis is one important type of factor analysis that aims to first find a low-dimensional representation of the original data, and then to seek a rotation such that the rotated low-dimensional representation is scientifically meaningful. Perhaps the most widely used vintage factor analysis is the Principal Component Analysis (PCA) followed by the varimax rotation. Despite its popularity, little theoretical guarantee can be provided mainly because varimax rotation requires to solve a non-convex optimization over the set of orthogonal matrices. In this paper, we propose a deflation varimax procedure that solves each row of an orthogonal matrix sequentially. In addition to its net computational gain and flexibility, we are able to fully establish theoretical guarantees for the proposed procedure in a broad context. Adopting this new varimax approach as the second step after PCA, we further analyze this two step procedure under a general class of factor models. Our results show that it estimates the factor loading matrix in the optimal rate when the signal-to-noise-ratio (SNR) is moderate or large. In the low SNR regime, we offer possible improvement over using PCA and the deflation procedure when the additive noise under the factor model is structured. The modified procedure is shown to be optimal in all SNR regimes. Our theory is valid for finite sample and allows the number of the latent factors to grow with the sample size as well as the ambient dimension to grow with, or even exceed, the sample size. Extensive simulation and real data analysis further corroborate our theoretical findings.

arxiv情報

著者 Xin Bing,Dian Jin,Yuqian Zhang
発行日 2023-10-16 16:14:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, eess.SP, math.IT, stat.ML パーマリンク