要約
ディープ ニューラル ネットワークは、広く使用されている予測アルゴリズムであり、重みの数が増えるとパフォーマンスが向上することが多く、過剰なパラメータ化につながります。
ランダム機能モデルとして知られる、最初の層が固定され、最後の層がトレーニング可能な 2 層のニューラル ネットワークを考えます。
学習ダイナミクスの一連の微分方程式を導出することにより、学生と教師のフレームワークのコンテキストで過剰パラメーター化を研究します。
隠れ層のサイズと入力次元の任意の有限比率に対して、学生は完全に一般化することはできず、非ゼロの漸近的一般化誤差を計算します。
生徒の隠れ層のサイズが入力次元より指数関数的に大きい場合にのみ、完全な一般化へのアプローチが可能です。
要約(オリジナル)
Deep neural networks are widely used prediction algorithms whose performance often improves as the number of weights increases, leading to over-parametrization. We consider a two-layered neural network whose first layer is frozen while the last layer is trainable, known as the random feature model. We study over-parametrization in the context of a student-teacher framework by deriving a set of differential equations for the learning dynamics. For any finite ratio of hidden layer size and input dimension, the student cannot generalize perfectly, and we compute the non-zero asymptotic generalization error. Only when the student’s hidden layer size is exponentially larger than the input dimension, an approach to perfect generalization is possible.
arxiv情報
著者 | Roman Worschech,Bernd Rosenow |
発行日 | 2023-03-24 15:49:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google