Bifurcations and loss jumps in RNN training

要約

リカレント ニューラル ネットワーク (RNN) は、連続データのモデリングと予測、および観測された時系列から動的システム (DS) を推論するための一般的な機械学習ツールです。
DS 理論 (DST) の概念は、トレーニングされた RNN が複雑なタスクを解決する方法とトレーニング プロセス自体の両方についての理解を深めるためにさまざまに使用されています。
分岐は、RNN を含む DS において特に重要な現象であり、1 つ以上のパラメーターが変化するときのシステムの動的動作の位相的 (質的) 変化を指します。
したがって、RNN の分岐構造を知ることで、パラメーターの変化に対する感度やトレーニング中の動作など、RNN の計算上および動的特性の多くを推定できるようになります。
特に、分岐は、RNN トレーニングで観察される突然の損失ジャンプの原因となり、トレーニング プロセスを著しく妨げる可能性があります。
ここでは、ReLU ベースの RNN の特定のクラスについて、特定の分岐が実際に無限大またはゼロに向かう損失勾配に関連していることを最初に数学的に証明します。
次に、ReLU ベースの RNN のすべての固定点と k サイクル、およびそれらの存在領域と安定領域、つまりパラメーター空間の分岐多様体を検出するための新しいヒューリスティック アルゴリズムを導入します。
固定点や一般的な継続方法を見つけるための以前の数値アルゴリズムとは対照的に、私たちのアルゴリズムは正確な結果を提供し、固定点を返し、驚くほど良好なスケーリング動作で高次までサイクルします。
我々は、RNN のトレーニング プロセスの分析に関するアルゴリズムを例示し、最近導入された一般化教師強制手法がトレーニングにおける特定のタイプの分岐を完全に回避していることを発見しました。
したがって、トレーニングされた RNN の DST 分析を容易にするだけでなく、私たちのアルゴリズムはトレーニング プロセス自体を分析するための強力な手段を提供します。

要約(オリジナル)

Recurrent neural networks (RNNs) are popular machine learning tools for modeling and forecasting sequential data and for inferring dynamical systems (DS) from observed time series. Concepts from DS theory (DST) have variously been used to further our understanding of both, how trained RNNs solve complex tasks, and the training process itself. Bifurcations are particularly important phenomena in DS, including RNNs, that refer to topological (qualitative) changes in a system’s dynamical behavior as one or more of its parameters are varied. Knowing the bifurcation structure of an RNN will thus allow to deduce many of its computational and dynamical properties, like its sensitivity to parameter variations or its behavior during training. In particular, bifurcations may account for sudden loss jumps observed in RNN training that could severely impede the training process. Here we first mathematically prove for a particular class of ReLU-based RNNs that certain bifurcations are indeed associated with loss gradients tending toward infinity or zero. We then introduce a novel heuristic algorithm for detecting all fixed points and k-cycles in ReLU-based RNNs and their existence and stability regions, hence bifurcation manifolds in parameter space. In contrast to previous numerical algorithms for finding fixed points and common continuation methods, our algorithm provides exact results and returns fixed points and cycles up to high orders with surprisingly good scaling behavior. We exemplify the algorithm on the analysis of the training process of RNNs, and find that the recently introduced technique of generalized teacher forcing completely avoids certain types of bifurcations in training. Thus, besides facilitating the DST analysis of trained RNNs, our algorithm provides a powerful instrument for analyzing the training process itself.

arxiv情報

著者 Lukas Eisenmann,Zahra Monfared,Niclas Alexander Göring,Daniel Durstewitz
発行日 2023-10-26 16:49:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.DS パーマリンク