On the Curse of Memory in Recurrent Neural Networks: Approximation and Optimization Analysis


私たちは、時間データの入出力関係を学習するために適用されたリカレント ニューラル ネットワーク (RNN) の近似特性と最適化ダイナミクスを研究します。
連続時間線形 RNN を使用して線形関係によって生成されたデータから学習するという単純だが代表的な設定を検討します。
さらに、線形 RNN のトレーニングの詳細な動的解析を実行し、記憶と学習の間の複雑な相互作用をさらに明らかにします。
これらの分析は、リカレント アーキテクチャを使用して時間的関係を学習する際に生じる可能性のある新しい現象を具体的に数学的に理解するための基本的なステップを表します。


We study the approximation properties and optimization dynamics of recurrent neural networks (RNNs) when applied to learn input-output relationships in temporal data. We consider the simple but representative setting of using continuous-time linear RNNs to learn from data generated by linear relationships. Mathematically, the latter can be understood as a sequence of linear functionals. We prove a universal approximation theorem of such linear functionals, and characterize the approximation rate and its relation with memory. Moreover, we perform a fine-grained dynamical analysis of training linear RNNs, which further reveal the intricate interactions between memory and learning. A unifying theme uncovered is the non-trivial effect of memory, a notion that can be made precise in our framework, on approximation and optimization: when there is long term memory in the target, it takes a large number of neurons to approximate it. Moreover, the training process will suffer from slow downs. In particular, both of these effects become exponentially more pronounced with memory – a phenomenon we call the ‘curse of memory’. These analyses represent a basic step towards a concrete mathematical understanding of new phenomenon that may arise in learning temporal relationships using recurrent architectures.


著者 Zhong Li,Jiequn Han,Weinan E,Qianxiao Li
発行日 2024-08-30 14:12:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 37M10, 68T07, 68W25, cs.LG, I.2.6, math.OC, stat.ML パーマリンク