要約
高パラメーター化されたニューラルネットワークの顕著な一般化能力について広く信じられている説明は、トレーニングに使用される最適化アルゴリズムが良性ソリューションに対する暗黙のバイアスを誘発することです。
これを理論的に把握するために、最近の作品は、多くの場合、学習率が消滅することを想定していることが多い、単純化されたトレーニング設定の勾配降下とそのバリアントを調べます。
これらの研究は、$ \ ell_1 $ $ -NORMの回帰のパラメーターを最小化し、分類における最大マージンソリューションなど、さまざまな形態の暗黙的な正則化を明らかにしています。
同時に、経験的な調査結果は、標準の安定性のしきい値を超える中程度から大きな学習率を超える標準的な安定性のしきい値を超えると、いわゆる安定性体制におけるより速く、より速く収束し、低いシャープネスの最小値(ヘシアンの規範)への暗黙的なバイアスを誘導することを示しています。
この作業では、勾配降下の一般化パフォーマンスを包括的に理解するには、これらのさまざまな形態の暗黙的な正則化の相互作用を分析する必要があると主張します。
学習率は、低パラメーターのノルムと訓練されたモデルの低いシャープネスの間でバランスをとることを経験的に実証します。
さらに、暗黙のバイアスだけで一般化エラーを最小化することはないという単純な回帰タスクでトレーニングされた対角線線形ネットワークについて証明します。
これらの発見は、単一の暗黙的なバイアスに焦点を当てることは、良好な一般化を説明するには不十分であり、neglignibligible Learnationレートによって誘発される規範とシャープネスの動的なトレードオフを捉える暗黙の正則化のより広い見解を動機付けることを示しています。
要約(オリジナル)
A widely believed explanation for the remarkable generalization capacities of overparameterized neural networks is that the optimization algorithms used for training induce an implicit bias towards benign solutions. To grasp this theoretically, recent works examine gradient descent and its variants in simplified training settings, often assuming vanishing learning rates. These studies reveal various forms of implicit regularization, such as $\ell_1$-norm minimizing parameters in regression and max-margin solutions in classification. Concurrently, empirical findings show that moderate to large learning rates exceeding standard stability thresholds lead to faster, albeit oscillatory, convergence in the so-called Edge-of-Stability regime, and induce an implicit bias towards minima of low sharpness (norm of training loss Hessian). In this work, we argue that a comprehensive understanding of the generalization performance of gradient descent requires analyzing the interaction between these various forms of implicit regularization. We empirically demonstrate that the learning rate balances between low parameter norm and low sharpness of the trained model. We furthermore prove for diagonal linear networks trained on a simple regression task that neither implicit bias alone minimizes the generalization error. These findings demonstrate that focusing on a single implicit bias is insufficient to explain good generalization, and they motivate a broader view of implicit regularization that captures the dynamic trade-off between norm and sharpness induced by non-negligible learning rates.
arxiv情報
著者 | Vit Fojtik,Maria Matveev,Hung-Hsu Chou,Gitta Kutyniok,Johannes Maly |
発行日 | 2025-05-27 16:51:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google