More is Less: Inducing Sparsity via Overparameterization

要約

深い学習では、ニューラルネットワークをオーバーパラメータ化すること、つまり、トレーニングサンプルよりも多くのパラメーターを使用することが一般的です。
非常に驚くべきことに、(確率的)勾配降下を介してニューラルネットワークをトレーニングすると、非常によく一般化するモデルにつながりますが、古典的な統計は過剰適合を示唆します。
この暗黙のバイアス現象を理解するために、それ自体が興味深いまばらな回復(圧縮センシング)の特別なケースを研究します。
より正確には、未定された線形測定からベクトルを再構築するために、再構築されるベクトルがいくつかのベクトルに深く因数分解される対応するオーバーパラメーター化された平方損失関数を導入します。
正確なソリューションが存在する場合、オーバーパラメーター化された損失機能のバニラ勾配の流れは、最小$ \ ell_1 $ -Normの解の適切な近似に収束することを示します。
後者は、まばらなソリューションを促進することでよく知られています。
副産物として、我々の結果は、以前の作品で導出されたオーバーパラメーター化されたモデルの勾配流/降下を介して、圧縮センシングのサンプルの複雑さを大幅に改善しました。
理論は、数値実験の回復率を正確に予測します。
私たちの証拠は、流れの特定のブレグマンの発散の分析に依存しています。
これは、非概念によって引き起こされる障害をバイパスし、独立した関心があるはずです。

要約(オリジナル)

In deep learning it is common to overparameterize neural networks, that is, to use more parameters than training samples. Quite surprisingly training the neural network via (stochastic) gradient descent leads to models that generalize very well, while classical statistics would suggest overfitting. In order to gain understanding of this implicit bias phenomenon we study the special case of sparse recovery (compressed sensing) which is of interest on its own. More precisely, in order to reconstruct a vector from underdetermined linear measurements, we introduce a corresponding overparameterized square loss functional, where the vector to be reconstructed is deeply factorized into several vectors. We show that, if there exists an exact solution, vanilla gradient flow for the overparameterized loss functional converges to a good approximation of the solution of minimal $\ell_1$-norm. The latter is well-known to promote sparse solutions. As a by-product, our results significantly improve the sample complexity for compressed sensing via gradient flow/descent on overparameterized models derived in previous works. The theory accurately predicts the recovery rate in numerical experiments. Our proof relies on analyzing a certain Bregman divergence of the flow. This bypasses the obstacles caused by non-convexity and should be of independent interest.

arxiv情報

著者 Hung-Hsu Chou,Johannes Maly,Holger Rauhut
発行日 2025-01-29 17:22:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, math.OC パーマリンク