Proving Linear Mode Connectivity of Neural Networks via Optimal Transport

要約

高次元の非凸最適化問題のエネルギー状況は、最新のディープ ニューラル ネットワーク アーキテクチャの有効性を理解するために重要です。
最近の研究では、確率的トレーニングを 2 回実行した後に見つかった 2 つの異なる解は、多くの場合、重みの順列を法とする非常に単純な連続パス (たとえば、線形) によって接続されることが実験的に示されています。
この論文では、この経験的観察を理論的に説明する枠組みを提供します。
経験的測定のワッサーシュタイン距離の収束率に基づいて、確率的勾配降下法でトレーニングされた 2 つの十分に広い 2 層ニューラル ネットワークが高い確率で線形接続されていることを示します。
さらに、線形接続される独立したニューロンの重みを持つ 2 つのディープ ニューラル ネットワークの各層の幅の上限と下限を表現します。
最後に、Wasserstein の収束率を決定するニューロンの重み分布のサポートの次元が線形モードの接続性とどのように相関しているかを示すことにより、アプローチの妥当性を経験的に示します。

要約(オリジナル)

The energy landscape of high-dimensional non-convex optimization problems is crucial to understanding the effectiveness of modern deep neural network architectures. Recent works have experimentally shown that two different solutions found after two runs of a stochastic training are often connected by very simple continuous paths (e.g., linear) modulo a permutation of the weights. In this paper, we provide a framework theoretically explaining this empirical observation. Based on convergence rates in Wasserstein distance of empirical measures, we show that, with high probability, two wide enough two-layer neural networks trained with stochastic gradient descent are linearly connected. Additionally, we express upper and lower bounds on the width of each layer of two deep neural networks with independent neuron weights to be linearly connected. Finally, we empirically demonstrate the validity of our approach by showing how the dimension of the support of the weight distribution of neurons, which dictates Wasserstein convergence rates is correlated with linear mode connectivity.

arxiv情報

著者 Damien Ferbach,Baptiste Goujaud,Gauthier Gidel,Aymeric Dieuleveut
発行日 2023-10-29 18:35:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク