On progressive sharpening, flat minima and generalisation

要約

深層学習における損失曲率と入出力モデルの動作の関係を理解するための新しいアプローチを紹介します。
具体的には、ディープ ネットワークの損失ヘシアンのスペクトルの既存の経験的分析を使用して、トレーニング全体を通じてトレーニング サンプル上でディープ ニューラル ネットワークの損失ヘシアンと入出力ヤコビアンを結び付けるアンザッツを確立します。
次に、モデルの入出力ヤコビアンがデータ分布上でそのリプシッツノルムにどの程度近似するかを定量化する一連の理論的結果を証明し、経験的なヤコビアンに関して新しい一般化限界を導き出します。
私たちは、理論的結果と合わせて分析結果を使用して、最近観察された漸進的先鋭化現象と平坦極小値の一般化特性について新たな説明を与えます。
私たちの主張を検証するために実験的証拠が提供されています。

要約(オリジナル)

We present a new approach to understanding the relationship between loss curvature and input-output model behaviour in deep learning. Specifically, we use existing empirical analyses of the spectrum of deep network loss Hessians to ground an ansatz tying together the loss Hessian and the input-output Jacobian of a deep neural network over training samples throughout training. We then prove a series of theoretical results which quantify the degree to which the input-output Jacobian of a model approximates its Lipschitz norm over a data distribution, and deduce a novel generalisation bound in terms of the empirical Jacobian. We use our ansatz, together with our theoretical results, to give a new account of the recently observed progressive sharpening phenomenon, as well as the generalisation properties of flat minima. Experimental evidence is provided to validate our claims.

arxiv情報

著者 Lachlan Ewen MacDonald,Jack Valmadre,Simon Lucey
発行日 2023-08-30 16:30:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク