A Theory of Synaptic Neural Balance: From Local to Global Order

要約

私たちは、シナプスのニューラル バランスと、それがニューラル ネットワーク内でどのように出現または強制されるかについての一般理論を開発します。
特定の正則化器について、入力重みの合計コストが出力重みの合計コストと等しい場合、ニューロンはバランスがとれていると言われます。
基本的な例は、$L_2$ 正則化子で訓練された ReLU ユニットのフィードフォワード ネットワークによって提供され、適切な訓練後にバランスを示します。
理論はこの現象を説明し、それをいくつかの方向に拡張します。
最初の方向は、双線形関数やその他の活性化関数への拡張です。
2 番目の方向は、すべての $L_p$ 正規化子を含む、より一般的な正規化子への拡張です。
3 番目の方向は、非階層化アーキテクチャ、リカレント アーキテクチャ、畳み込みアーキテクチャ、および混合アクティベーション関数を備えたアーキテクチャへの拡張です。
誤差関数単独での勾配降下法は、一般に、平衡状態から開始した場合でも、すべてのニューロンが平衡状態にある平衡状態には収束しません。
ただし、正則化誤差関数の勾配降下法はバランスのとれた状態に収束するはずであるため、ネットワークのバランスを使用して学習の進行状況を評価できます。
この理論は、可換性のあるスケーリングと可換性のないバランシングという 2 つのローカル ニューロン操作に基づいています。
重みの初期セットが与えられた場合、局所的な平衡化操作が確率論的に各ニューロンに適用されると、確率的平衡化アルゴリズムの同じ一意の平衡化された重みのセットへの収束を通じて、グローバルな秩序が常に現れます。
この理由は、関連する変数が線形でアーキテクチャのみに依存する多様体に制約される、根底にある厳密な凸最適化問題が存在するためです。
シミュレーションでは、学習前、または勾配降下ステップと交互に学習中にニューロンのバランスをとると、学習速度と最終的なパフォーマンスが向上することが示されています。

要約(オリジナル)

We develop a general theory of synaptic neural balance and how it can emerge or be enforced in neural networks. For a given regularizer, a neuron is said to be in balance if the total cost of its input weights is equal to the total cost of its output weights. The basic example is provided by feedforward networks of ReLU units trained with $L_2$ regularizers, which exhibit balance after proper training. The theory explains this phenomenon and extends it in several directions. The first direction is the extension to bilinear and other activation functions. The second direction is the extension to more general regularizers, including all $L_p$ regularizers. The third direction is the extension to non-layered architectures, recurrent architectures, convolutional architectures, as well as architectures with mixed activation functions. Gradient descent on the error function alone does not converge in general to a balanced state, where every neuron is in balance, even when starting from a balanced state. However, gradient descent on the regularized error function ought to converge to a balanced state, and thus network balance can be used to assess learning progress. The theory is based on two local neuronal operations: scaling which is commutative, and balancing which is not commutative. Given any initial set of weights, when local balancing operations are applied to each neuron in a stochastic manner, global order always emerges through the convergence of the stochastic balancing algorithm to the same unique set of balanced weights. The reason for this is the existence of an underlying strictly convex optimization problem where the relevant variables are constrained to a linear, only architecture-dependent, manifold. Simulations show that balancing neurons prior to learning, or during learning in alternation with gradient descent steps, can improve learning speed and final performance.

arxiv情報

著者 Pierre Baldi,Antonios Alexos,Ian Domingo,Alireza Rahmansetayesh
発行日 2024-10-31 02:01:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE パーマリンク