More is Less: Inducing Sparsity via Overparameterization

要約

タイトル: 過剰パラメータ化によるスパース性の導入
要約:
– 深層学習では、トレーニングサンプルよりも多くのパラメータを使用することが一般的です。
– (Stochastic) gradient descent を通じてニューラルネットワークをトレーニングすると、古典的な統計学が過剰適合を示唆する一方で、非常によく一般化するモデルが得られることがびっくりするほどあります。
– 同様に、スパース回復(圧縮センシング)の特殊なケースを研究し、潜在的なバイアス現象を理解する必要性があります。
– より具体的には、未知のベクトルを過不足ない線形測定から復元するために、適切な過剰パラメータ化された二乗損失関数を導入し、復元ベクトルを複数のベクトルに深く分解します。
– もし完全な解が存在する場合、過剰パラメータ化された損失関数のバニラ勾配フローは最小のl_1ノルムの解の良い近似値に収束することを示しました。後者は、スパースなソリューションを促進することがよく知られています。
– 副産物として、私たちの結果は、以前の作品で導出された過剰パラメータ化されたモデル上での勾配フロー/降下を介した圧縮センシングのサンプル複雑さを大幅に改善します。理論は、数値実験で回復率を正確に予測しています。
– 私たちの証明は、フローのあるBregman分散の分析に依存しています。これは、非凸性によって引き起こされる障害を迂回し、独立した興味のある点であるはずです。

要約(オリジナル)

In deep learning it is common to overparameterize neural networks, that is, to use more parameters than training samples. Quite surprisingly training the neural network via (stochastic) gradient descent leads to models that generalize very well, while classical statistics would suggest overfitting. In order to gain understanding of this implicit bias phenomenon we study the special case of sparse recovery (compressed sensing) which is of interest on its own. More precisely, in order to reconstruct a vector from underdetermined linear measurements, we introduce a corresponding overparameterized square loss functional, where the vector to be reconstructed is deeply factorized into several vectors. We show that, if there exists an exact solution, vanilla gradient flow for the overparameterized loss functional converges to a good approximation of the solution of minimal $\ell_1$-norm. The latter is well-known to promote sparse solutions. As a by-product, our results significantly improve the sample complexity for compressed sensing via gradient flow/descent on overparameterized models derived in previous works. The theory accurately predicts the recovery rate in numerical experiments. Our proof relies on analyzing a certain Bregman divergence of the flow. This bypasses the obstacles caused by non-convexity and should be of independent interest.

arxiv情報

著者 Hung-Hsu Chou,Johannes Maly,Holger Rauhut
発行日 2023-05-10 08:02:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.IT, cs.LG, math.IT, math.OC パーマリンク