The Training Process of Many Deep Networks Explores the Same Low-Dimensional Manifold

要約

私たちは、トレーニング中にディープネットワークの予測の軌跡を分析するための情報幾何学的手法を開発します。
基礎となる高次元の確率モデルを調べることで、トレーニング プロセスが効果的に低次元の多様体を探索していることが明らかになります。
さまざまな最適化手法、正則化手法、データ拡張手法、重みの初期化を使用してトレーニングされた、さまざまなアーキテクチャ、サイズのネットワークが、予測空間の同じ多様体上に存在します。
この多様体の詳細を研究すると、異なるアーキテクチャのネットワークは区別可能な軌跡をたどりますが、他の要因の影響は最小限であることがわかります。
大規模なネットワークは、小規模なネットワークと同様の多様体に沿ってトレーニングしますが、ただ高速です。
そして、予測空間の非常に異なる部分で初期化されたネットワークは、同様の多様体に沿って解に収束します。

要約(オリジナル)

We develop information-geometric techniques to analyze the trajectories of the predictions of deep networks during training. By examining the underlying high-dimensional probabilistic models, we reveal that the training process explores an effectively low-dimensional manifold. Networks with a wide range of architectures, sizes, trained using different optimization methods, regularization techniques, data augmentation techniques, and weight initializations lie on the same manifold in the prediction space. We study the details of this manifold to find that networks with different architectures follow distinguishable trajectories but other factors have a minimal influence; larger networks train along a similar manifold as that of smaller networks, just faster; and networks initialized at very different parts of the prediction space converge to the solution along a similar manifold.

arxiv情報

著者 Jialin Mao,Itay Griniasty,Han Kheng Teoh,Rahul Ramesh,Rubing Yang,Mark K. Transtrum,James P. Sethna,Pratik Chaudhari
発行日 2024-03-19 17:51:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG パーマリンク