要約
タイトル:深い広いニューラルネットワークの統計最適性
要約:
– 有界領域$\mathcal X \subset \mathbb R^{d}$で定義されたディープワイドフィードフォワードReLUニューラルネットワークの一般化能力を考慮する。
– ニューラルネットワークの一般化能力は、対応するディープニューラルタンジェントカーネル(NTK)回帰の一般化能力によって完全に特徴付けることができることを示す。
– 深いNTKのスペクトル特性について調査し、深いNTKが$\mathcal{X}$上で正定値であり、その固有値減衰率が$(d+1)/d$であることを示す。
– カーネル回帰に関する成熟した理論のおかげで、適切な早期停止と勾配降下によってトレーニングされた多層のワイドニューラルネットワークは、対応するNTKに関連する再生核ヒルベルト空間(RKHS)に回帰関数がある場合、ミニマックス率を達成すると結論付ける。
– 最後に、過学習した多層ワイドニューラルネットワークが$\mathbb S^{d}$で一般化できないことを示す。
要約(オリジナル)
In this paper, we consider the generalization ability of deep wide feedforward ReLU neural networks defined on a bounded domain $\mathcal X \subset \mathbb R^{d}$. We first demonstrate that the generalization ability of the neural network can be fully characterized by that of the corresponding deep neural tangent kernel (NTK) regression. We then investigate on the spectral properties of the deep NTK and show that the deep NTK is positive definite on $\mathcal{X}$ and its eigenvalue decay rate is $(d+1)/d$. Thanks to the well established theories in kernel regression, we then conclude that multilayer wide neural networks trained by gradient descent with proper early stopping achieve the minimax rate, provided that the regression function lies in the reproducing kernel Hilbert space (RKHS) associated with the corresponding NTK. Finally, we illustrate that the overfitted multilayer wide neural networks can not generalize well on $\mathbb S^{d}$.
arxiv情報
| 著者 | Yicheng Li,Zixiong Yu,Guhan Chen,Qian Lin |
| 発行日 | 2023-05-04 08:54:40+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI