On the Lipschitz Constant of Deep Networks and Double Descent

要約

タイトル:Deep NetworksとDouble DescentのLipschitz Constantに関するもの

要約:既存のDeep Networksの一般化誤差の上限に対するバインディングは、入力変数に対するいくらかの滑らかさや境界を前提としており、実際にはそのような要因を制御しているメカニズムを調査していません。本研究では、Deep NetworksのエンパイリカルなLipschitz定数に対する広範な実験的研究を行い、ダブルディセントを経験するDeep Networksの非単調な傾向や、テストエラーと強く相関することを明らかにしました。 SGDにおける臨界点周りのパラメータ空間と入力空間の勾配の間の接続を構築し、損失地形の曲率とパラメータ初期化からの距離という2つの重要な要因を分離しました。それぞれ、臨界点周りの最適化ダイナミクスを制御し、トレーニングデータを超えたモデル機能の複雑さを制限しています。本研究では、過剰適合による暗黙の正則化と、実際にトレーニングされたネットワークの効果的なモデルの複雑さに関する新しい知見を提供しています。

要点:
– 深いネットワークの一般化エラーの上限に対する既存のバインディングは、入力変数に滑らかさや境界があることを前提としており、実際の制御メカニズムを調査していない
– 本研究では、Lipschitz定数の広範な実験的研究を行い、ダブル・ディセントを経験する深いネットワークの非単調な傾向を明らかにし、テストエラーと強く相関することを示した
– SGDにおける臨界点周りのパラメータ空間と入力空間の勾配の間の接続を構築し、損失地形の曲率とパラメータ初期化からの距離という2つの重要な要因を分離した
– 本研究は、過剰適合による暗黙の正則化と、実際にトレーニングされたネットワークの効果的なモデルの複雑さに関する新しい知見を提供している

要約(オリジナル)

Existing bounds on the generalization error of deep networks assume some form of smooth or bounded dependence on the input variable, falling short of investigating the mechanisms controlling such factors in practice. In this work, we present an extensive experimental study of the empirical Lipschitz constant of deep networks undergoing double descent, and highlight non-monotonic trends strongly correlating with the test error. Building a connection between parameter-space and input-space gradients for SGD around a critical point, we isolate two important factors — namely loss landscape curvature and distance of parameters from initialization — respectively controlling optimization dynamics around a critical point and bounding model function complexity, even beyond the training data. Our study presents novels insights on implicit regularization via overparameterization, and effective model complexity for networks trained in practice.

arxiv情報

著者 Matteo Gamba,Hossein Azizpour,Mårten Björkman
発行日 2023-04-27 13:39:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク