要約
タイトル:熱力学的ノイズを用いたニューラルネットワーク風景の地形表現
要約:
– ニューラルネットワークのトレーニングは、応用的観点からも理論的な理由から興味深い、複雑で高次元、非凸かつノイズの多い最適化問題です。
– 最適化を指導するランドスケープのジオメトリとトポグラフィを理解することは、主要な課題の1つです。
– この研究では、ランダムデータ上で分類タスクを実行する過剰パラメータ化された完全接続ネットワークを対象とし、Langevin動力学を使用した相空間探索といった標準的な統計力学の手法を用いてこの風景を調査しました。
– 熱力学的なダイナミクスとの類比において、揺らぎの統計を分析することで、低損失領域の明確なジオメトリ表現を推定します。
– 低損失領域は低次元マニフォールドであり、その次元は揺らぎから簡単に得ることができます。
– さらに、この次元は、分類決定境界の近くに存在するデータ点の数によって制御されます。
– 重要なのは、最小点周辺の損失の二次近似は、決定境界の指数関数的な性質や低損失領域の平坦さにより、根本的に適切でないことがわかりました。
– これにより、ダイナミクスは、より高い温度でより高い曲率の領域をサンプリングしながら、任意の温度で二次的な統計を生成することがあります。
– この行動を、解析的に取り扱うことができ、観察された揺らぎの統計を再現する簡略化された損失モデルで説明します。
要約(オリジナル)
The training of neural networks is a complex, high-dimensional, non-convex and noisy optimization problem whose theoretical understanding is interesting both from an applicative perspective and for fundamental reasons. A core challenge is to understand the geometry and topography of the landscape that guides the optimization. In this work, we employ standard Statistical Mechanics methods, namely, phase-space exploration using Langevin dynamics, to study this landscape for an over-parameterized fully connected network performing a classification task on random data. Analyzing the fluctuation statistics, in analogy to thermal dynamics at a constant temperature, we infer a clear geometric description of the low-loss region. We find that it is a low-dimensional manifold whose dimension can be readily obtained from the fluctuations. Furthermore, this dimension is controlled by the number of data points that reside near the classification decision boundary. Importantly, we find that a quadratic approximation of the loss near the minimum is fundamentally inadequate due to the exponential nature of the decision boundary and the flatness of the low-loss region. This causes the dynamics to sample regions with higher curvature at higher temperatures, while producing quadratic-like statistics at any given temperature. We explain this behavior by a simplified loss model which is analytically tractable and reproduces the observed fluctuation statistics.
arxiv情報
著者 | Theo Jules,Gal Brener,Tal Kachman,Noam Levi,Yohai Bar-Sinai |
発行日 | 2023-04-18 06:25:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI