要約
私たちは、時間データの入出力関係を学習するために適用されたリカレント ニューラル ネットワーク (RNN) の近似特性と最適化ダイナミクスを研究します。
連続時間線形 RNN を使用して線形関係によって生成されたデータから学習するという単純だが代表的な設定を検討します。
数学的には、後者は一連の線形関数として理解できます。
このような線形関数の普遍的な近似定理を証明し、近似率とそのメモリとの関係を特徴付けます。
さらに、線形 RNN のトレーニングの詳細な動的解析を実行し、記憶と学習の間の複雑な相互作用をさらに明らかにします。
明らかになった統一テーマは、記憶の重要な効果です。この概念は、近似と最適化に関して、私たちのフレームワークで正確にすることができます。ターゲットに長期記憶がある場合、それを近似するには多数のニューロンが必要です。
さらに、トレーニングのプロセスが遅くなる可能性があります。
特に、これらの影響はどちらも記憶に関して指数関数的に顕著になります。この現象を私たちは「記憶の呪い」と呼んでいます。
これらの分析は、リカレント アーキテクチャを使用して時間的関係を学習する際に生じる可能性のある新しい現象を具体的に数学的に理解するための基本的なステップを表します。
要約(オリジナル)
We study the approximation properties and optimization dynamics of recurrent neural networks (RNNs) when applied to learn input-output relationships in temporal data. We consider the simple but representative setting of using continuous-time linear RNNs to learn from data generated by linear relationships. Mathematically, the latter can be understood as a sequence of linear functionals. We prove a universal approximation theorem of such linear functionals, and characterize the approximation rate and its relation with memory. Moreover, we perform a fine-grained dynamical analysis of training linear RNNs, which further reveal the intricate interactions between memory and learning. A unifying theme uncovered is the non-trivial effect of memory, a notion that can be made precise in our framework, on approximation and optimization: when there is long term memory in the target, it takes a large number of neurons to approximate it. Moreover, the training process will suffer from slow downs. In particular, both of these effects become exponentially more pronounced with memory – a phenomenon we call the ‘curse of memory’. These analyses represent a basic step towards a concrete mathematical understanding of new phenomenon that may arise in learning temporal relationships using recurrent architectures.
arxiv情報
著者 | Zhong Li,Jiequn Han,Weinan E,Qianxiao Li |
発行日 | 2024-08-30 14:12:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google