Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks

要約

最近の研究では、単一の ReLU ニューロンであっても近似しようとすると次元性 (CoD) の呪いを回避できないため、再生カーネル ヒルベルト空間 (RKHS) はニューラル ネットワークによる関数のモデル化に適した空間ではないことが示されています (Bach、2017)。
この論文では、サンプルの複雑さと汎化特性の観点から、制限されたノルム (パス ノルム、バロン ノルムなど) を持つオーバーパラメータ化された 2 層ニューラル ネットワークに適した関数空間を研究します。
まず、パス ノルム (バロン ノルムと同様) が幅に依存しないサンプル複雑さの限界を取得できることを示します。これにより、均一な収束保証が可能になります。
この結果に基づいて、$\epsilon$ について $\mathcal{O}(\epsilon^{-\frac{2d}{d+2}})$ ($d までをカバーする) の計量エントロピーの改善された結果を導き出します。
$ は入力次元であり、依存する定数は凸包テクニックを介して最大 $d$ の多項式オーダーです。これは、ターゲットを学習するための $\Omega(\epsilon^{-d})$ を使用したカーネル メソッドによる分離を示しています。
バロンスペースでの機能。
第 2 に、この計量エントロピーの結果により、一般モーメント仮説設定の下でより鋭い一般化限界を構築でき、$\mathcal{O}(n^{-\frac{d+2}{2d+2}})$ でのレートを達成できます。

私たちの分析は、(次元 $d$ に対する明確な依存関係を持つ) 計量エントロピーのよりシャープで洗練された推定と、サンプル誤差と出力誤差の推定における無制限のサンプリングを提供するという点で斬新です。

要約(オリジナル)

Recent studies show that a reproducing kernel Hilbert space (RKHS) is not a suitable space to model functions by neural networks as the curse of dimensionality (CoD) cannot be evaded when trying to approximate even a single ReLU neuron (Bach, 2017). In this paper, we study a suitable function space for over-parameterized two-layer neural networks with bounded norms (e.g., the path norm, the Barron norm) in the perspective of sample complexity and generalization properties. First, we show that the path norm (as well as the Barron norm) is able to obtain width-independence sample complexity bounds, which allows for uniform convergence guarantees. Based on this result, we derive the improved result of metric entropy for $\epsilon$-covering up to $\mathcal{O}(\epsilon^{-\frac{2d}{d+2}})$ ($d$ is the input dimension and the depending constant is at most polynomial order of $d$) via the convex hull technique, which demonstrates the separation with kernel methods with $\Omega(\epsilon^{-d})$ to learn the target function in a Barron space. Second, this metric entropy result allows for building a sharper generalization bound under a general moment hypothesis setting, achieving the rate at $\mathcal{O}(n^{-\frac{d+2}{2d+2}})$. Our analysis is novel in that it offers a sharper and refined estimation for metric entropy (with a clear dependence relationship on the dimension $d$) and unbounded sampling in the estimation of the sample error and the output error.

arxiv情報

著者 Fanghui Liu,Leello Dadi,Volkan Cevher
発行日 2024-04-29 15:04:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク