Lasso with Latents: Efficient Estimation, Covariate Rescaling, and Computational-Statistical Gaps

要約

対象の共変量に強い相関がある場合、Lasso の統計的パフォーマンスが大幅に低下する可能性があることはよく知られています。
特に、なげなわの予測誤差は、最良のサブセット選択などの計算効率の悪い代替手段よりもはるかに悪くなります。
スパース線形回帰の問題では計算と統計の大きなトレードオフが推測されるため、一般にこのギャップを埋めることは不可能である可能性があります。
この研究では、共変量間の強い相関が観測されていない潜在変数から生じる自然な疎線形回帰設定を提案します。
この設定では、強い相関関係によって引き起こされる問題を分析し、驚くほど簡単な修正を設計します。
共変量の標準正規化を使用した Lasso は失敗しますが、共変量の不均一なスケーリングが存在し、これにより Lasso は推定のための強力な証明可能な保証を突然取得します。
さらに、そのような「スマート スケーリング」を計算するためのシンプルで効率的な手順を設計します。
結果として得られる「再スケーリングされた Lasso」アルゴリズムのサンプルの複雑さは、(最悪の場合) 基礎となる信号のスパース性に 2 次の依存性を引き起こします。
この依存性は情報理論的には必要ありませんが、低次多項式の方法によって、多項式時間アルゴリズムのクラスの中で最適であるという証拠を示します。
この議論は、スパース線形回帰と、臨界に近い負のスパイクを備えた特別バージョンのスパース PCA との間の新たな関係を明らかにします。
後者の問題は、スパース パリティの学習の実数値の類似物として考えることができます。
これを使用して、ガウス グラフィカル モデルの学習という密接に関連する問題に対する最初の計算と統計のギャップも確立します。

要約(オリジナル)

It is well-known that the statistical performance of Lasso can suffer significantly when the covariates of interest have strong correlations. In particular, the prediction error of Lasso becomes much worse than computationally inefficient alternatives like Best Subset Selection. Due to a large conjectured computational-statistical tradeoff in the problem of sparse linear regression, it may be impossible to close this gap in general. In this work, we propose a natural sparse linear regression setting where strong correlations between covariates arise from unobserved latent variables. In this setting, we analyze the problem caused by strong correlations and design a surprisingly simple fix. While Lasso with standard normalization of covariates fails, there exists a heterogeneous scaling of the covariates with which Lasso will suddenly obtain strong provable guarantees for estimation. Moreover, we design a simple, efficient procedure for computing such a ‘smart scaling.’ The sample complexity of the resulting ‘rescaled Lasso’ algorithm incurs (in the worst case) quadratic dependence on the sparsity of the underlying signal. While this dependence is not information-theoretically necessary, we give evidence that it is optimal among the class of polynomial-time algorithms, via the method of low-degree polynomials. This argument reveals a new connection between sparse linear regression and a special version of sparse PCA with a near-critical negative spike. The latter problem can be thought of as a real-valued analogue of learning a sparse parity. Using it, we also establish the first computational-statistical gap for the closely related problem of learning a Gaussian Graphical Model.

arxiv情報

著者 Jonathan Kelner,Frederic Koehler,Raghu Meka,Dhruv Rohatgi
発行日 2024-02-23 16:16:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CC, cs.DS, cs.LG, math.ST, stat.ML, stat.TH パーマリンク