Field theory for optimal signal propagation in ResNets

要約

残差ネットワークは、深い深さのフィードフォワード ネットワークよりもトレーニング可能性が大幅に優れているため、パフォーマンスが優れています。
スキップ接続を導入すると、より深い層への信号の伝播が容易になります。
さらに、以前の研究では、残差ブランチにスケーリング パラメーターを追加すると、汎化パフォーマンスがさらに向上することがわかりました。
彼らは、このスケーリング パラメーターの特に有益な値の範囲を経験的に特定しましたが、関連するパフォーマンスの向上とネットワーク ハイパーパラメーター全体にわたるその普遍性についてはまだ理解する必要があります。
フィードフォワード ネットワークの場合、有限サイズ理論は信号伝播とハイパーパラメーター調整に関する重要な洞察をもたらしました。
ここでは、信号伝播と残差ブランチのスケーリングへの依存性を研究するために、残差ネットワークの体系的な有限サイズ場理論を導出します。
入力に対するネットワークの感度の尺度である応答関数の分析式を導出し、ディープ ネットワークでは経験的に見つかったスケーリング パラメーターの値が最大感度の範囲内にあることを示します。
さらに、重み分散などの他のネットワーク ハイパーパラメーターに弱くのみ依存する最適なスケーリング パラメーターの分析式を取得し、それによってハイパーパラメーター全体にわたる普遍性を説明します。
全体として、この研究は、有限サイズでの ResNets を研究するための理論的枠組みを提供します。

要約(オリジナル)

Residual networks have significantly better trainability and thus performance than feed-forward networks at large depth. Introducing skip connections facilitates signal propagation to deeper layers. In addition, previous works found that adding a scaling parameter for the residual branch further improves generalization performance. While they empirically identified a particularly beneficial range of values for this scaling parameter, the associated performance improvement and its universality across network hyperparameters yet need to be understood. For feed-forward networks, finite-size theories have led to important insights with regard to signal propagation and hyperparameter tuning. We here derive a systematic finite-size field theory for residual networks to study signal propagation and its dependence on the scaling for the residual branch. We derive analytical expressions for the response function, a measure for the network’s sensitivity to inputs, and show that for deep networks the empirically found values for the scaling parameter lie within the range of maximal sensitivity. Furthermore, we obtain an analytical expression for the optimal scaling parameter that depends only weakly on other network hyperparameters, such as the weight variance, thereby explaining its universality across hyperparameters. Overall, this work provides a theoretical framework to study ResNets at finite size.

arxiv情報

著者 Kirsten Fischer,David Dahmen,Moritz Helias
発行日 2024-08-26 14:09:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, stat.ML パーマリンク