Optimization dependent generalization bound for ReLU networks based on sensitivity in the tangent bundle

要約

ディープラーニングの最近の進歩により、ディープ ニューラル ネットワークの一般化能力に関して非常に有望な結果が得られていますが、過度にパラメータ化されたモデルがトレーニング データに適合しながら適切に一般化できる理由を説明する包括的な理論が文献にはまだ不足しています。
この論文では、勾配降下法を介して初期パラメータ ベクトルから利用可能なネットワークのセットの Rademacher 複雑度を推定することにより、フィードフォワード ReLU ネットワークの汎化誤差に制限された PAC タイプを提案します。
重要なアイデアは、最適化軌道に沿った入力データの摂動に対するネットワークの勾配の感度を制限することです。
取得された境界は、ネットワークの深さに明示的に依存しません。
私たちの結果は、MNIST および CIFAR-10 データセットで実験的に検証されています。

要約(オリジナル)

Recent advances in deep learning have given us some very promising results on the generalization ability of deep neural networks, however literature still lacks a comprehensive theory explaining why heavily over-parametrized models are able to generalize well while fitting the training data. In this paper we propose a PAC type bound on the generalization error of feedforward ReLU networks via estimating the Rademacher complexity of the set of networks available from an initial parameter vector via gradient descent. The key idea is to bound the sensitivity of the network’s gradient to perturbation of the input data along the optimization trajectory. The obtained bound does not explicitly depend on the depth of the network. Our results are experimentally verified on the MNIST and CIFAR-10 datasets.

arxiv情報

著者 Dániel Rácz,Mihály Petreczky,András Csertán,Bálint Daróczy
発行日 2023-10-26 13:14:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68, cs.AI, cs.LG, I.2.6 パーマリンク