Inference for Heteroskedastic PCA with Missing Data

要約

この論文では、主成分分析 (PCA) の信頼領域を高次元で構築する方法を研究しますが、この問題は十分に研究されていません。
非線形/非凸推定量の不確実性の尺度を高次元で計算することは一般に困難ですが、欠損データと不均一分散ノイズの蔓延により、課題はさらに複雑になります。
私たちは、HeteroPCA と呼ばれる推定量に基づいて、欠損データを含むスパイク共分散モデルの下で主部分空間で有効な推論を実行するための新しいアプローチを提案します (Zhang et al., 2022)。
HeteroPCA の非漸近分布保証を開発し、これらを呼び出して主部分空間の信頼領域とスパイク共分散行列のエントリごとの信頼区間の両方を計算する方法を示します。
私たちの推論手順は完全にデータ駆動型であり、ノイズ レベルに関する事前の知識を必要とせず、不均一分散ランダム ノイズに適応します。

要約(オリジナル)

This paper studies how to construct confidence regions for principal component analysis (PCA) in high dimension, a problem that has been vastly under-explored. While computing measures of uncertainty for nonlinear/nonconvex estimators is in general difficult in high dimension, the challenge is further compounded by the prevalent presence of missing data and heteroskedastic noise. We propose a novel approach to performing valid inference on the principal subspace under a spiked covariance model with missing data, on the basis of an estimator called HeteroPCA (Zhang et al., 2022). We develop non-asymptotic distributional guarantees for HeteroPCA, and demonstrate how these can be invoked to compute both confidence regions for the principal subspace and entrywise confidence intervals for the spiked covariance matrix. Our inference procedures are fully data-driven and adaptive to heteroskedastic random noise, without requiring prior knowledge about the noise levels.

arxiv情報

著者 Yuling Yan,Yuxin Chen,Jianqing Fan
発行日 2024-02-28 17:22:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, math.ST, stat.ME, stat.ML, stat.TH パーマリンク