Benignity of loss landscape with weight decay requires both large overparametrization and initialization

要約

体重減衰下でのニューラルネットワークの最適化は、理論的な観点からはあまり理解されていません。
体重減衰は最新のトレーニング手順では標準的な慣行ですが、ほとんどの理論的分析は、正規化されていない設定に焦点を当てています。
この作業では、2層のReluネットワークの$ \ Ell_2 $ $-REGURTINEDトレーニング損失の損失状況を調査します。
ランドスケープは、特に$ m \ gtrsim \ min(n^d、2^n)$を満たしている場合、特にネットワーク幅$ mが満たされている場合、大規模なオーバーパラム化下で良性になることを示します。
より正確には、このレジームでは、ほとんどすべての一定の活性化領域には、グローバルな最小値が含まれており、局所的な最小値はありません。
さらに、このレベルのオーバーパラメーター化は十分であるだけでなく、直交データの例を介して必要であることを示します。
最後に、このような損失の景観の結果は、主に大きな初期化体制に関連性を保持していることを実証します。
対照的に、機能学習体制に対応する小さな初期化の場合、最適化は、景観のグローバルな良性にもかかわらず、依然として偽の局所ミニマに収束する可能性があります。

要約(オリジナル)

The optimization of neural networks under weight decay remains poorly understood from a theoretical standpoint. While weight decay is standard practice in modern training procedures, most theoretical analyses focus on unregularized settings. In this work, we investigate the loss landscape of the $\ell_2$-regularized training loss for two-layer ReLU networks. We show that the landscape becomes benign — i.e., free of spurious local minima — under large overparametrization, specifically when the network width $m$ satisfies $m \gtrsim \min(n^d, 2^n)$, where $n$ is the number of data points and $d$ the input dimension. More precisely in this regime, almost all constant activation regions contain a global minimum and no spurious local minima. We further show that this level of overparametrization is not only sufficient but also necessary via the example of orthogonal data. Finally, we demonstrate that such loss landscape results primarily hold relevance in the large initialization regime. In contrast, for small initializations — corresponding to the feature learning regime — optimization can still converge to spurious local minima, despite the global benignity of the landscape.

arxiv情報

著者 Etienne Boursier,Matthew Bowditch,Matthias Englert,Ranko Lazic
発行日 2025-05-28 16:53:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク