Sparse Linear Regression and Lattice Problems

要約

スパース線形回帰 (SLR) は、計画行列 $X\in\mathbb{R}^{m\times n}$ と応答ベクトル $y=X\theta^* が与えられる、統計学でよく研究されている問題です。
$k$ のスパース ベクトル $\theta^*$ (つまり、 $\|\theta^*\|_0\leq k$) と小さな任意のノイズ $w$ に対して +w$ を追加し、目標は次のとおりです。
平均二乗予測誤差を最小化する $k$-sparse $\widehat{\theta} \in \mathbb{R}^n$ を見つけます $\frac{1}{m}\|X\widehat{\theta}-
X\θ^*\|^2_2$。
基底追跡、Lasso、Dantzig セレクターなどの $\ell_1$ 緩和手法は、計画行列が適切に条件付けされている場合に SLR を解決しますが、一般的なアルゴリズムは知られておらず、平均的な場合の設定における硬さの正式な証拠もありません。
すべての効率的なアルゴリズムに関して。
一眼レフカメラの平均ケース硬度の証拠を示します。
すべての効率的なアルゴリズムは、格子問題の最悪の場合の硬さを想定しています。
具体的には、格子上の有界距離復号化 (BDD) 問題の変形から SLR へのインスタンスごとの削減を行います。ここで、BDD インスタンスを定義する格子基底の条件数は、次の制限された固有値条件に直接関連しています。
設計行列。スパース線形回帰の古典的な統計計算上のギャップの一部を特徴づけます。
また、格子の世界から最悪のケースから平均的なケースへの削減を求めることにより、これは SLR インスタンスの分布の難しさを示しています。
設計行列は悪条件ですが、結果として得られる SLR インスタンスは識別可能な領域にあります。
さらに、Lasso が識別可能な領域で適切に動作することが知られている、よく条件付けされた (本質的に) 等方性のガウス設計行列の場合、ワーストケースの硬度を仮定して、多数の解が存在する識別不可能な領域で適切な解を出力することの難しさを示します。
標準的でよく研究された格子問題の。

要約(オリジナル)

Sparse linear regression (SLR) is a well-studied problem in statistics where one is given a design matrix $X\in\mathbb{R}^{m\times n}$ and a response vector $y=X\theta^*+w$ for a $k$-sparse vector $\theta^*$ (that is, $\|\theta^*\|_0\leq k$) and small, arbitrary noise $w$, and the goal is to find a $k$-sparse $\widehat{\theta} \in \mathbb{R}^n$ that minimizes the mean squared prediction error $\frac{1}{m}\|X\widehat{\theta}-X\theta^*\|^2_2$. While $\ell_1$-relaxation methods such as basis pursuit, Lasso, and the Dantzig selector solve SLR when the design matrix is well-conditioned, no general algorithm is known, nor is there any formal evidence of hardness in an average-case setting with respect to all efficient algorithms. We give evidence of average-case hardness of SLR w.r.t. all efficient algorithms assuming the worst-case hardness of lattice problems. Specifically, we give an instance-by-instance reduction from a variant of the bounded distance decoding (BDD) problem on lattices to SLR, where the condition number of the lattice basis that defines the BDD instance is directly related to the restricted eigenvalue condition of the design matrix, which characterizes some of the classical statistical-computational gaps for sparse linear regression. Also, by appealing to worst-case to average-case reductions from the world of lattices, this shows hardness for a distribution of SLR instances; while the design matrices are ill-conditioned, the resulting SLR instances are in the identifiable regime. Furthermore, for well-conditioned (essentially) isotropic Gaussian design matrices, where Lasso is known to behave well in the identifiable regime, we show hardness of outputting any good solution in the unidentifiable regime where there are many solutions, assuming the worst-case hardness of standard and well-studied lattice problems.

arxiv情報

著者 Aparna Gupte,Neekon Vafa,Vinod Vaikuntanathan
発行日 2024-02-22 15:45:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク