Stabilizing RNN Gradients through Pre-training

要約

学習の多くの理論は、深さまたは時間に伴う指数関数的な増加による勾配の変動を防ぎ、トレーニングを安定させ、改善することを提案しています。
通常、これらの解析は、数学的扱いやすさを考慮して、フィードフォワード完全接続ニューラル ネットワークまたは単層リカレント ニューラル ネットワークで実行されます。
対照的に、この研究は、アーキテクチャが分析的初期化には複雑すぎる場合には、ネットワークを局所的に安定させるための事前トレーニングが効果的であることを示しています。
さらに、既知の安定性理論を拡張して、より広範な深層リカレント ネットワークを包含し、データとパラメータ分布に関する最小限の仮定を必要とします。この理論を局所安定性条件 (LSC) と呼んでいます。
私たちの調査により、古典的な Glorot、He、および直交初期化スキームが、フィードフォワード完全接続ニューラル ネットワークに適用された場合に LSC を満たすことが明らかになりました。
しかし、深いリカレント ネットワークを分析すると、長方形グリッド内の勾配パスを深さと時間で数えることから現れる、指数関数的爆発の新たな相加的ソースが特定されます。
我々は、この問題を軽減するための新しいアプローチを提案します。これは、勾配に対する時間と深さの寄与に、従来の 1 の重みではなく、半分の重みを与えることから構成されます。
私たちの経験的な結果は、LSC を満たすためにフィードフォワード ネットワークとリカレント ネットワークの両方を事前トレーニングすると、多くの場合、モデル全体の最終パフォーマンスが向上することを確認しています。
この研究は、あらゆる複雑なネットワークを安定化する手段を提供することで、この分野に貢献します。
私たちのアプローチは、大規模な拡張データセットでの事前トレーニング前の追加ステップとして、また分析的に安定した初期化を見つける代替として実装できます。

要約(オリジナル)

Numerous theories of learning suggest to prevent the gradient variance from exponential growth with depth or time, to stabilize and improve training. Typically, these analyses are conducted on feed-forward fully-connected neural networks or single-layer recurrent neural networks, given their mathematical tractability. In contrast, this study demonstrates that pre-training the network to local stability can be effective whenever the architectures are too complex for an analytical initialization. Furthermore, we extend known stability theories to encompass a broader family of deep recurrent networks, requiring minimal assumptions on data and parameter distribution, a theory that we refer to as the Local Stability Condition (LSC). Our investigation reveals that the classical Glorot, He, and Orthogonal initialization schemes satisfy the LSC when applied to feed-forward fully-connected neural networks. However, analysing deep recurrent networks, we identify a new additive source of exponential explosion that emerges from counting gradient paths in a rectangular grid in depth and time. We propose a new approach to mitigate this issue, that consists on giving a weight of a half to the time and depth contributions to the gradient, instead of the classical weight of one. Our empirical results confirm that pre-training both feed-forward and recurrent networks to fulfill the LSC often results in improved final performance across models. This study contributes to the field by providing a means to stabilize networks of any complexity. Our approach can be implemented as an additional step before pre-training on large augmented datasets, and as an alternative to finding stable initializations analytically.

arxiv情報

著者 Luca Herranz-Celotti,Jean Rouat
発行日 2023-08-23 11:48:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク