On the curvature of the loss landscape

要約

最新の深層学習における主な課題の 1 つは、有限データでトレーニングした場合に、このような過剰にパラメーター化されたモデルがなぜ非常に優れたパフォーマンスを発揮するのかを理解することです。
この一般化概念を分析する方法は、関連する損失状況の特性を利用することです。
この研究では、損失ランドスケープを埋め込まれたリーマン多様体として考慮し、ディープネットの一般化能力を分析するときに多様体の微分幾何学的特性を使用できることを示します。
特に、多様体に対して解析的に計算できるスカラー曲率に焦点を当て、一般化を示唆する可能性のあるいくつかの設定との関連性を示します。

要約(オリジナル)

One of the main challenges in modern deep learning is to understand why such over-parameterized models perform so well when trained on finite data. A way to analyze this generalization concept is through the properties of the associated loss landscape. In this work, we consider the loss landscape as an embedded Riemannian manifold and show that the differential geometric properties of the manifold can be used when analyzing the generalization abilities of a deep net. In particular, we focus on the scalar curvature, which can be computed analytically for our manifold, and show connections to several settings that potentially imply generalization.

arxiv情報

著者 Alison Pouplin,Hrittik Roy,Sidak Pal Singh,Georgios Arvanitidis
発行日 2023-07-10 17:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク