Statistical-Computational Tradeoffs in Mixed Sparse Linear Regression

要約

2 つの成分を含む混合スパース線形回帰の問題を考えます。ここでは、2 つの実 $k$ スパース信号 $\beta_1, \beta_2$ が $n$ のラベルなしノイズ線形測定から回復されます。
スパース性は次元内で線形未満であることが許可され、加法性ノイズは分散 $\sigma^2$ を持つ独立したガウスであると仮定されます。
これまでの研究では、この問題には $\frac{k}{SNR^2}$ 対 $\frac{k^2}{SNR^2}$ 統計と計算のギャップがあり、他の計算上の困難な問題と同様であることが示されています。
スパース PCA やロバストスパース平均推定などの高次元の推論問題。
ここで $SNR$ は信号対雑音比です。
我々は、低次多項式の方法を通じて、この問題に対するより広範な計算障壁の存在を確立しますが、この問題が非常に狭い対称パラメータ領域でのみ計算的に困難であることを示します。
このハードレジームにおけるランダム化アルゴリズムのサンプル複雑さ $n$ と実行時間の間のスムーズな情報計算のトレードオフを特定します。
これは、単純な還元を介して、サンプル複雑さ $n = \tilde{o}(k^2)$ の疎位相検索における正確なサポート回復を解くための計算上の障壁が存在するという新しい厳密な証拠を提供します。
私たちの 2 番目の貢献は、問題が難しい狭い領域の外で、サンプル数の平方根を使用して関連する混合回帰検出問題を $O(np)$ 時間で解決し、サンプルと一致する単純なしきい値アルゴリズムを分析することです。
(非混合) スパース線形回帰に必要な複雑さ。
これにより、その後、高密度のケースから最先端の技術を使用して回復問題を解決できるようになります。
私たちの結果の特殊なケースとして、この単純なアルゴリズムが、疎な線形回帰における正確な符号付きサポート回復を解く際に、大きなアルゴリズム群の中で次数最適であることを示します。

要約(オリジナル)

We consider the problem of mixed sparse linear regression with two components, where two real $k$-sparse signals $\beta_1, \beta_2$ are to be recovered from $n$ unlabelled noisy linear measurements. The sparsity is allowed to be sublinear in the dimension, and additive noise is assumed to be independent Gaussian with variance $\sigma^2$. Prior work has shown that the problem suffers from a $\frac{k}{SNR^2}$-to-$\frac{k^2}{SNR^2}$ statistical-to-computational gap, resembling other computationally challenging high-dimensional inference problems such as Sparse PCA and Robust Sparse Mean Estimation; here $SNR$ is the signal-to-noise ratio. We establish the existence of a more extensive computational barrier for this problem through the method of low-degree polynomials, but show that the problem is computationally hard only in a very narrow symmetric parameter regime. We identify a smooth information-computation tradeoff between the sample complexity $n$ and runtime for any randomized algorithm in this hard regime. Via a simple reduction, this provides novel rigorous evidence for the existence of a computational barrier to solving exact support recovery in sparse phase retrieval with sample complexity $n = \tilde{o}(k^2)$. Our second contribution is to analyze a simple thresholding algorithm which, outside of the narrow regime where the problem is hard, solves the associated mixed regression detection problem in $O(np)$ time with square-root the number of samples and matches the sample complexity required for (non-mixed) sparse linear regression; this allows the recovery problem to be subsequently solved by state-of-the-art techniques from the dense case. As a special case of our results, we show that this simple algorithm is order-optimal among a large family of algorithms in solving exact signed support recovery in sparse linear regression.

arxiv情報

著者 Gabriel Arpino,Ramji Venkataramanan
発行日 2023-07-06 16:21:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, math.ST, stat.ML, stat.TH パーマリンク