要約
現在のモデルの損失曲線の平坦性は、一般化能力と相関していることが経験的に示されています。
平坦性の最適化は、Hochreiter と Schmidthuber によって 1994 年にすでに提案されており、その後、より最近ではシャープネスを意識した最適化手法が成功しています。
しかし、特に再パラメータ化の呪いを考慮すると、平坦性と一般化の間に理論的に根拠のある関係が欠如しているため、実際に広く採用されるかどうかは疑わしいです。ニューラル ネットワークの特定の再パラメータ化は、ほとんどの平坦性の尺度を変更しますが、一般化は変更しません。
最近の理論的研究は、特定の相対的な平坦性の尺度が一般化に関連付けられ、再パラメータ化の呪いを解決できることを示唆しています。
この論文では、この相対的な平坦性に基づいて、計算が容易で高速かつ効率的で、任意の損失関数で動作する正則化子を導出します。
ネットワークの単一層のヘッセ行列のみを計算する必要があるため、大規模なニューラル ネットワークに適用でき、モデル付近の損失曲面の高価なマッピングを回避できます。
広範な経験的評価により、この相対平坦性を意識した最小化 (FAM) により、微調整と標準トレーニングの両方において、多数のアプリケーションとモデルにおける一般化が向上することがわかりました。
コードはgithubで公開しています。
要約(オリジナル)
Flatness of the loss curve around a model at hand has been shown to empirically correlate with its generalization ability. Optimizing for flatness has been proposed as early as 1994 by Hochreiter and Schmidthuber, and was followed by more recent successful sharpness-aware optimization techniques. Their widespread adoption in practice, though, is dubious because of the lack of theoretically grounded connection between flatness and generalization, in particular in light of the reparameterization curse – certain reparameterizations of a neural network change most flatness measures but do not change generalization. Recent theoretical work suggests that a particular relative flatness measure can be connected to generalization and solves the reparameterization curse. In this paper, we derive a regularizer based on this relative flatness that is easy to compute, fast, efficient, and works with arbitrary loss functions. It requires computing the Hessian only of a single layer of the network, which makes it applicable to large neural networks, and with it avoids an expensive mapping of the loss surface in the vicinity of the model. In an extensive empirical evaluation we show that this relative flatness aware minimization (FAM) improves generalization in a multitude of applications and models, both in finetuning and standard training. We make the code available at github.
arxiv情報
著者 | Linara Adilova,Amr Abourayya,Jianning Li,Amin Dada,Henning Petzka,Jan Egger,Jens Kleesiek,Michael Kamp |
発行日 | 2023-07-05 14:48:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google