Analysis of the expected $L_2$ error of an over-parametrized deep neural network estimate learned by gradient descent without regularization

要約

最近の結果は、正規化された経験的$L_2$リスクに勾配降下法を適用することによって学習された、過剰パラメータ化されたディープニューラルネットワークによって定義された推定値が普遍的に一貫しており、良好な収束率を達成することを示しています。
この論文では、同様の結果を得るために正則化項は必要ないことを示します。
適切に選択されたネットワークの初期化、適切な数の勾配降下ステップ、および適切なステップ サイズの場合、正則化項のない推定値は、有界予測変数に対して普遍的に一貫していることを示します。
さらに、回帰関数が H\’older 指数 $1/2 \leq p \leq 1$ で H\’older Smooth である場合、$L_2$ 誤差は約 $n^{ の収束率でゼロに収束することを示します。
-1/(1+d)}$。
さらに、回帰関数が $d^*$ 成分を持つ古い滑らかな関数の合計で構成される交互作用モデルの場合、入力次元 $d$ に依存しない収束率が導出されます。

要約(オリジナル)

Recent results show that estimates defined by over-parametrized deep neural networks learned by applying gradient descent to a regularized empirical $L_2$ risk are universally consistent and achieve good rates of convergence. In this paper, we show that the regularization term is not necessary to obtain similar results. In the case of a suitably chosen initialization of the network, a suitable number of gradient descent steps, and a suitable step size we show that an estimate without a regularization term is universally consistent for bounded predictor variables. Additionally, we show that if the regression function is H\’older smooth with H\’older exponent $1/2 \leq p \leq 1$, the $L_2$ error converges to zero with a convergence rate of approximately $n^{-1/(1+d)}$. Furthermore, in case of an interaction model, where the regression function consists of a sum of H\’older smooth functions with $d^*$ components, a rate of convergence is derived which does not depend on the input dimension $d$.

arxiv情報

著者 Selina Drews,Michael Kohler
発行日 2023-11-24 17:04:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62G08, cs.LG, stat.ML パーマリンク