Expected Gradients of Maxout Networks and Consequences to Parameter Initialization

要約

入力とパラメータに関して maxout ネットワークの勾配を研究し、アーキテクチャとパラメータ分布に応じてモーメントの境界を取得します。
入出力ヤコビアンの分布が入力に依存しており、安定したパラメーターの初期化が複雑になっていることがわかります。
勾配の瞬間に基づいて、広いネットワークでの勾配の消失や爆発を回避するパラメーター初期化戦略を定式化します。
深い完全接続ネットワークと畳み込みネットワークを使った実験では、この戦略により深い maxout ネットワークの SGD および Adam トレーニングが改善されることが示されています。
さらに、線形領域の予想される数に関する洗練された境界、予想される曲線の長さの歪みに関する結果、および NTK に関する結果が得られます。

要約(オリジナル)

We study the gradients of a maxout network with respect to inputs and parameters and obtain bounds for the moments depending on the architecture and the parameter distribution. We observe that the distribution of the input-output Jacobian depends on the input, which complicates a stable parameter initialization. Based on the moments of the gradients, we formulate parameter initialization strategies that avoid vanishing and exploding gradients in wide networks. Experiments with deep fully-connected and convolutional networks show that this strategy improves SGD and Adam training of deep maxout networks. In addition, we obtain refined bounds on the expected number of linear regions, results on the expected curve length distortion, and results on the NTK.

arxiv情報

著者 Hanna Tseran,Guido Montúfar
発行日 2023-05-18 15:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク