要約
通常、深層学習における過剰パラメータ化とは、トレーニング済みのニューラル ネットワーク (NN) がさまざまな方法でトレーニング データに適合する表現能力を備えている設定を指します。
リカレント ニューラル ネットワーク (RNN) の場合、モデルがトレーニングで見られるシーケンスの長さを適切に一般化する多くのソリューションを示す可能性があるという意味で、過剰パラメータ化の追加レイヤーが存在します。
いいえ。
多くの研究で、勾配降下 (GD) が過剰にパラメータ化された NN を適切に一般化するソリューションに適合させる傾向が研究されています。
一方、過剰にパラメータ化された RNN を外挿するソリューションに適合させる傾向は、最近発見されたばかりで、あまり理解されていません。
この論文では、過パラメータ化された線形 RNN に適用された場合の GD の外挿特性を分析します。
短期記憶への暗黙のバイアスを示唆する最近の議論とは対照的に、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供します。
私たちの結果は、GD (小さなステップ サイズとほぼゼロの初期化) が特定の形式のバランスを維持しようと努力していることを示す動的特性と、統計からのモーメント問題のコンテキストで開発されたツール (回復) に依存しています。
その瞬間からの確率分布)。
実験は私たちの理論を裏付けており、線形および非線形の両方の RNN を使用して低次元の状態空間を学習することによる外挿を示しています。
要約(オリジナル)
Overparameterization in deep learning typically refers to settings where a trained neural network (NN) has representational capacity to fit the training data in many ways, some of which generalize well, while others do not. In the case of Recurrent Neural Networks (RNNs), there exists an additional layer of overparameterization, in the sense that a model may exhibit many solutions that generalize well for sequence lengths seen in training, some of which extrapolate to longer sequences, while others do not. Numerous works have studied the tendency of Gradient Descent (GD) to fit overparameterized NNs with solutions that generalize well. On the other hand, its tendency to fit overparameterized RNNs with solutions that extrapolate has been discovered only recently and is far less understood. In this paper, we analyze the extrapolation properties of GD when applied to overparameterized linear RNNs. In contrast to recent arguments suggesting an implicit bias towards short-term memory, we provide theoretical evidence for learning low-dimensional state spaces, which can also model long-term memory. Our result relies on a dynamical characterization which shows that GD (with small step size and near-zero initialization) strives to maintain a certain form of balancedness, as well as on tools developed in the context of the moment problem from statistics (recovery of a probability distribution from its moments). Experiments corroborate our theory, demonstrating extrapolation via learning low-dimensional state spaces with both linear and non-linear RNNs.
arxiv情報
著者 | Edo Cohen-Karlik,Itamar Menuhin-Gruman,Raja Giryes,Nadav Cohen,Amir Globerson |
発行日 | 2023-03-23 15:45:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google