Convergence of Gradient Descent for Recurrent Neural Networks: A Nonasymptotic Analysis

要約

私たちは、動的システムの教師あり学習設定で勾配降下法でトレーニングされたリカレント ニューラル ネットワークを分析し、勾配降下法が大規模なオーバーパラメータ化を \emph{せずに}最適化できることを証明します。
私たちの詳細な非漸近分析 (i) は、シーケンス長 $T$、サンプル サイズ $n$、アンビエント次元 $d$ に関して、ネットワーク サイズ $m$ と反復複雑さ $\tau$ に明確な境界を提供します。
ii) 活性化関数のリプシッツ連続性に依存するカットオフ点によって特徴付けられる収束およびネットワーク幅の境界に対する動的システムの長期依存性の重大な影響を特定します。
注目すべきことに、この分析により、$n$ サンプルでトレーニングされた適切に初期化されたリカレント ニューラル ネットワークは、$n$ に対して対数的にのみスケールされるネットワーク サイズ $m$ で最適性を達成できることが明らかになりました。
これは、強力な規則性条件を確立するために $n$ に対する $m$ の高次多項式依存性を必要とする以前の研究とは明らかに対照的です。
私たちの結果は、ノルム制約のある輸送マッピングを介してリカレント ニューラル ネットワークによって近似および学習できる動的システムのクラスの明示的な特徴付けと、学習可能なパラメーターに関する隠れ状態の局所的な滑らかさ特性の確立に基づいています。

要約(オリジナル)

We analyze recurrent neural networks trained with gradient descent in the supervised learning setting for dynamical systems, and prove that gradient descent can achieve optimality \emph{without} massive overparameterization. Our in-depth nonasymptotic analysis (i) provides sharp bounds on the network size $m$ and iteration complexity $\tau$ in terms of the sequence length $T$, sample size $n$ and ambient dimension $d$, and (ii) identifies the significant impact of long-term dependencies in the dynamical system on the convergence and network width bounds characterized by a cutoff point that depends on the Lipschitz continuity of the activation function. Remarkably, this analysis reveals that an appropriately-initialized recurrent neural network trained with $n$ samples can achieve optimality with a network size $m$ that scales only logarithmically with $n$. This sharply contrasts with the prior works that require high-order polynomial dependency of $m$ on $n$ to establish strong regularity conditions. Our results are based on an explicit characterization of the class of dynamical systems that can be approximated and learned by recurrent neural networks via norm-constrained transportation mappings, and establishing local smoothness properties of the hidden state with respect to the learnable parameters.

arxiv情報

著者 Semih Cayci,Atilla Eryilmaz
発行日 2024-02-19 15:56:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク