Optimization dependent generalization bound for ReLU networks based on sensitivity in the tangent bundle

要約

近年のディープラーニングの進歩により、ディープニューラルネットワークの汎化能力に関して非常に有望な結果が得られているが、文献には、なぜ過度にパラメータ化されたモデルが、学習データに適合しながらうまく汎化できるのかを説明する包括的な理論がまだ欠けている。本論文では、勾配降下により初期パラメータベクトルから利用可能なネットワーク集合のラーデマッハ複雑度を推定することで、フィードフォワードReLUネットワークの汎化誤差に対するPAC型の境界を提案する。重要なアイデアは、最適化軌道に沿った入力データの摂動に対するネットワークの勾配の感度を束縛することである。得られた境界は、ネットワークの深さには明示的に依存しない。我々の結果はMNISTとCIFAR-10データセットで実験的に検証された。

要約(オリジナル)

Recent advances in deep learning have given us some very promising results on the generalization ability of deep neural networks, however literature still lacks a comprehensive theory explaining why heavily over-parametrized models are able to generalize well while fitting the training data. In this paper we propose a PAC type bound on the generalization error of feedforward ReLU networks via estimating the Rademacher complexity of the set of networks available from an initial parameter vector via gradient descent. The key idea is to bound the sensitivity of the network’s gradient to perturbation of the input data along the optimization trajectory. The obtained bound does not explicitly depend on the depth of the network. Our results are experimentally verified on the MNIST and CIFAR-10 datasets.

arxiv情報

著者 Dániel Rácz,Mihály Petreczky,András Csertán,Bálint Daróczy
発行日 2023-12-04 15:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68, cs.AI, cs.LG, I.2.6 パーマリンク