On the Lipschitz Constant of Deep Networks and Double Descent

要約

ディープネットワークの汎化誤差に関する既存の限界は、入力変数に対する何らかの形の滑らかなまたは限定された依存性を想定しており、そのような要因を制御するメカニズムを実際に調査するには至っていません。
この研究では、二重降下を受ける深層ネットワークの経験的リプシッツ定数に関する広範な実験研究を提示し、テスト誤差と強く相関する非単調傾向を強調します。
臨界点付近の SGD のパラメータ空間勾配と入力空間勾配の間の関係を構築し、2 つの重要な要素、つまり損失ランドスケープ曲率と初期化からのパラメータの距離を分離し、それぞれ臨界点付近の最適化ダイナミクスと境界モデル関数を制御します。
トレーニング データを超えた複雑さ。
私たちの研究は、オーバーパラメータ化による暗黙的な正則化と、実際に訓練されたネットワークの効果的なモデルの複雑さに関する新しい洞察を示しています。

要約(オリジナル)

Existing bounds on the generalization error of deep networks assume some form of smooth or bounded dependence on the input variable, falling short of investigating the mechanisms controlling such factors in practice. In this work, we present an extensive experimental study of the empirical Lipschitz constant of deep networks undergoing double descent, and highlight non-monotonic trends strongly correlating with the test error. Building a connection between parameter-space and input-space gradients for SGD around a critical point, we isolate two important factors — namely loss landscape curvature and distance of parameters from initialization — respectively controlling optimization dynamics around a critical point and bounding model function complexity, even beyond the training data. Our study presents novels insights on implicit regularization via overparameterization, and effective model complexity for networks trained in practice.

arxiv情報

著者 Matteo Gamba,Hossein Azizpour,Mårten Björkman
発行日 2023-11-14 15:48:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク