Topological obstruction to the training of shallow ReLU neural networks

要約

損失状況の幾何学的形状と単純なニューラル ネットワークの最適化軌道の間の相互作用を研究することは、より複雑な設定での動作を理解するための基本的なステップです。
この論文は、勾配フローを使用して訓練された浅い ReLU ニューラル ネットワークの損失ランドスケープにおけるトポロジカルな障害の存在を明らかにします。
ReLU 活性化関数の均質な性質が、形状がネットワークのパラメーターの特定の初期化に依存する二次超曲面の積の上にあるようにトレーニング軌道をどのように制約するかについて説明します。
ニューラル ネットワークの出力が単一のスカラーである場合、これらの二次関数は複数の連結成分を持つことができ、トレーニング中に到達可能なパラメーターのセットが制限される可能性があることを証明します。
私たちはこれらのコンポーネントの数を分析的に計算し、ニューロンの再スケーリングと順列を通じて一方を他方にマッピングする可能性について議論します。
この単純な設定では、非接続性によりトポロジー的な障害が発生し、初期化によっては全体的な最適値に到達できなくなる可能性があることがわかります。
この結果を数値実験で検証します。

要約(オリジナル)

Studying the interplay between the geometry of the loss landscape and the optimization trajectories of simple neural networks is a fundamental step for understanding their behavior in more complex settings. This paper reveals the presence of topological obstruction in the loss landscape of shallow ReLU neural networks trained using gradient flow. We discuss how the homogeneous nature of the ReLU activation function constrains the training trajectories to lie on a product of quadric hypersurfaces whose shape depends on the particular initialization of the network’s parameters. When the neural network’s output is a single scalar, we prove that these quadrics can have multiple connected components, limiting the set of reachable parameters during training. We analytically compute the number of these components and discuss the possibility of mapping one to the other through neuron rescaling and permutation. In this simple setting, we find that the non-connectedness results in a topological obstruction, which, depending on the initialization, can make the global optimum unreachable. We validate this result with numerical experiments.

arxiv情報

著者 Marco Nurisso,Pierrick Leroy,Francesco Vaccarino
発行日 2024-11-07 16:13:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), cs.LG, I.2.6, math.AG, math.AT, secondary パーマリンク