Kernel Limit of Recurrent Neural Networks Trained on Ergodic Data Sequences

要約

隠れユニットの数、シーケンス内のデータ サンプル、隠れ状態の更新、トレーニング ステップが同時に無限大に増加するにつれて、リカレント ニューラル ネットワーク (RNN) の漸近を特徴付ける数学的手法が開発されています。
単純化された重み行列を持つ RNN の場合、ランダム代数方程式の固定点と結合された無限次元 ODE の解への RNN の収束を証明します。
分析では、RNN に特有のいくつかの課題に対処する必要があります。
典型的な平均場アプリケーション (フィードフォワード ニューラル ネットワークなど) では、離散更新の大きさは $\mathcal{O}(\frac{1}{N})$ で、更新数は $\mathcal{O}(N
)$。
したがって、この系は適切な ODE/PDE のオイラー近似として表すことができ、$N \rightarrow \infty$ として収束します。
ただし、RNN 隠れ層の更新は $\mathcal{O}(1)$ です。
したがって、RNN は ODE/PDE の離散化として表すことができず、標準の平均場技術を適用することはできません。
代わりに、更新ステップの数と隠れユニットの数に関する収束推定を使用して、RNN メモリ状態の進化のための固定点分析を開発します。
RNN 隠れ層はソボレフ空間の関数として研究され、その進化はデータ シーケンス (マルコフ連鎖)、パラメーターの更新、および前のタイム ステップでの RNN 隠れ層への依存によって支配されます。
更新間の強い相関があるため、ポアソン方程式を使用して RNN の変動をその限界方程式の周りに制限する必要があります。
これらの数学的手法では、データ サンプルの数とニューラル ネットワークのサイズが無限大に増大するにつれて、データ シーケンスでトレーニングされた RNN にニューラル タンジェント カーネル (NTK) の制限が生じます。

要約(オリジナル)

Mathematical methods are developed to characterize the asymptotics of recurrent neural networks (RNN) as the number of hidden units, data samples in the sequence, hidden state updates, and training steps simultaneously grow to infinity. In the case of an RNN with a simplified weight matrix, we prove the convergence of the RNN to the solution of an infinite-dimensional ODE coupled with the fixed point of a random algebraic equation. The analysis requires addressing several challenges which are unique to RNNs. In typical mean-field applications (e.g., feedforward neural networks), discrete updates are of magnitude $\mathcal{O}(\frac{1}{N})$ and the number of updates is $\mathcal{O}(N)$. Therefore, the system can be represented as an Euler approximation of an appropriate ODE/PDE, which it will converge to as $N \rightarrow \infty$. However, the RNN hidden layer updates are $\mathcal{O}(1)$. Therefore, RNNs cannot be represented as a discretization of an ODE/PDE and standard mean-field techniques cannot be applied. Instead, we develop a fixed point analysis for the evolution of the RNN memory states, with convergence estimates in terms of the number of update steps and the number of hidden units. The RNN hidden layer is studied as a function in a Sobolev space, whose evolution is governed by the data sequence (a Markov chain), the parameter updates, and its dependence on the RNN hidden layer at the previous time step. Due to the strong correlation between updates, a Poisson equation must be used to bound the fluctuations of the RNN around its limit equation. These mathematical methods give rise to the neural tangent kernel (NTK) limits for RNNs trained on data sequences as the number of data samples and size of the neural network grow to infinity.

arxiv情報

著者 Samuel Chun-Hei Lam,Justin Sirignano,Konstantinos Spiliopoulos
発行日 2024-05-15 15:21:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 60J20, 68T05, cs.LG, math.PR, stat.ML パーマリンク