The Training Process of Many Deep Networks Explores the Same Low-Dimensional Manifold




– 深層ネットワークの予測の軌跡を分析するために情報幾何学的技術を開発した。
– 高次元の確率モデルを調べることで、トレーニングプロセスが効果的に低次元空間を探索することが明らかになった。
– 異なるアーキテクチャ、サイズ、最適化方法、正則化技術、データ拡張技術、重みの初期化方法でトレーニングされたネットワークが、予測空間の同じ空間に存在する。
– 異なるアーキテクチャのネットワークは別々の軌跡を辿るが、その他の要因は影響が少ない。
– 大きなネットワークは、小さなネットワークと同様の空間をトレーニングするが、トレーニングスピードが早い。
– 予測空間の異なる部分から初期化されたネットワークも同じ空間に収束する。


We develop information-geometric techniques to analyze the trajectories of the predictions of deep networks during training. By examining the underlying high-dimensional probabilistic models, we reveal that the training process explores an effectively low-dimensional manifold. Networks with a wide range of architectures, sizes, trained using different optimization methods, regularization techniques, data augmentation techniques, and weight initializations lie on the same manifold in the prediction space. We study the details of this manifold to find that networks with different architectures follow distinguishable trajectories but other factors have a minimal influence; larger networks train along a similar manifold as that of smaller networks, just faster; and networks initialized at very different parts of the prediction space converge to the solution along a similar manifold.


著者 Jialin Mao,Itay Griniasty,Han Kheng Teoh,Rahul Ramesh,Rubing Yang,Mark K. Transtrum,James P. Sethna,Pratik Chaudhari
発行日 2023-05-02 17:09:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.LG パーマリンク