Statistical-Computational Tradeoffs in Mixed Sparse Linear Regression

要約

ここでは、2つの実数$k$スパース信号$beta_1, \beta_2$ を$n$ラベルなしノイズ線形測定から回復する、2成分混合スパース線形回帰の問題を考察する。スパース性は次元に比例し、加法性ノイズは分散$sigma^2$の独立ガウスであると仮定する。先行研究により、この問題は$frac{k}{SNR^2}$対$frac{k^2}{SNR^2}$の統計的-計算的ギャップに苦しみ、Sparse PCAやRobust Sparse Mean Estimationなどの他の計算困難な高次元推測問題に似ていることがわかった。この問題に対して、低次多項式の手法により、より広範な計算障壁の存在を立証するが、この問題が計算上困難なのは、非常に狭い対称的なパラメータ領域においてのみであることを示す。この困難な領域における任意のランダム化アルゴリズムについて、標本複雑度$n$と実行時間との間の滑らかな情報-計算トレードオフを特定する。このことは、簡単な漸化式によって、標本複雑度$n = ㊤(k^2)$のスパース位相検索における正確なサポート回復を解くための計算障壁が存在することを示す新しい厳密な証拠となる。我々の第二の貢献は、問題が難しい狭い領域以外では、関連する混合回帰検出問題をサンプル数の平方根で$O(np)$時間で解き、(非混合)スパース線形回帰に必要なサンプル複雑度と一致する簡単な閾値アルゴリズムを解析することである。このことにより回復問題はその後、密な場合からの最先端の技術で解くことが出来る。我々の結果の特別なケースとして、この単純なアルゴリズムが、スパース線形回帰における厳密な符号付きサポート回復を解く際のアルゴリズムの大きなファミリーの中で次善の策であることを示す。

要約(オリジナル)

We consider the problem of mixed sparse linear regression with two components, where two real $k$-sparse signals $\beta_1, \beta_2$ are to be recovered from $n$ unlabelled noisy linear measurements. The sparsity is allowed to be sublinear in the dimension, and additive noise is assumed to be independent Gaussian with variance $\sigma^2$. Prior work has shown that the problem suffers from a $\frac{k}{SNR^2}$-to-$\frac{k^2}{SNR^2}$ statistical-to-computational gap, resembling other computationally challenging high-dimensional inference problems such as Sparse PCA and Robust Sparse Mean Estimation; here $SNR$ is the signal-to-noise ratio. We establish the existence of a more extensive computational barrier for this problem through the method of low-degree polynomials, but show that the problem is computationally hard only in a very narrow symmetric parameter regime. We identify a smooth information-computation tradeoff between the sample complexity $n$ and runtime for any randomized algorithm in this hard regime. Via a simple reduction, this provides novel rigorous evidence for the existence of a computational barrier to solving exact support recovery in sparse phase retrieval with sample complexity $n = \tilde{o}(k^2)$. Our second contribution is to analyze a simple thresholding algorithm which, outside of the narrow regime where the problem is hard, solves the associated mixed regression detection problem in $O(np)$ time with square-root the number of samples and matches the sample complexity required for (non-mixed) sparse linear regression; this allows the recovery problem to be subsequently solved by state-of-the-art techniques from the dense case. As a special case of our results, we show that this simple algorithm is order-optimal among a large family of algorithms in solving exact signed support recovery in sparse linear regression.

arxiv情報

著者 Gabriel Arpino,Ramji Venkataramanan
発行日 2023-03-03 18:03:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.IT, cs.LG, math.IT, math.ST, stat.ML, stat.TH パーマリンク