On Model Identification and Out-of-Sample Prediction of Principal Component Regression: Applications to Synthetic Controls

要約

固定設計による高次元の変数内誤差設定で主成分回帰 (PCR) を分析します。
適切な条件下では、PCR が最小の $\ell_2$-norm を持つ固有のモデルを一貫して識別することを示します。
これらの結果により、既知の最良のレートを改善する非漸近的サンプル外予測保証を確立することができます。
分析の過程で、サンプル内とサンプル外の共変量の間に自然な線形代数条件を導入します。これにより、サンプル外の予測に対する分布の仮定を回避できます。
私たちのシミュレーションは、共変量シフトの下でも、一般化にとってこの条件の重要性を示しています。
したがって、この条件が実際にいつ成立するかを確認するための仮説検定を構築します。
副産物として、私たちの結果は、政策評価の主要なアプローチである合成制御文献の新しい結果にもつながります。
私たちの知る限り、固定設計設定に対する予測保証は、高次元の変数誤差と合成制御の文献の両方でとらえどころがありません。

要約(オリジナル)

We analyze principal component regression (PCR) in a high-dimensional error-in-variables setting with fixed design. Under suitable conditions, we show that PCR consistently identifies the unique model with minimum $\ell_2$-norm. These results enable us to establish non-asymptotic out-of-sample prediction guarantees that improve upon the best known rates. In the course of our analysis, we introduce a natural linear algebraic condition between the in- and out-of-sample covariates, which allows us to avoid distributional assumptions for out-of-sample predictions. Our simulations illustrate the importance of this condition for generalization, even under covariate shifts. Accordingly, we construct a hypothesis test to check when this conditions holds in practice. As a byproduct, our results also lead to novel results for the synthetic controls literature, a leading approach for policy evaluation. To the best of our knowledge, our prediction guarantees for the fixed design setting have been elusive in both the high-dimensional error-in-variables and synthetic controls literatures.

arxiv情報

著者 Anish Agarwal,Devavrat Shah,Dennis Shen
発行日 2023-08-25 17:33:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク