Learning Non-Vacuous Generalization Bounds from Optimization

要約

ディープ ラーニング コミュニティにおける基本的な課題の 1 つは、ディープ ニューラル ネットワークが目に見えないデータに対してどの程度一般化できるかを理論的に理解することです。
しかし、現在のアプローチでは、多くの場合、真の汎化誤差を知ることができないほど緩すぎる汎化境界、または圧縮されたネットに対してのみ有効な汎化境界が生成されます。
この研究では、最適化の観点から限定された単純だが空虚でない一般化を示します。
この目標は、確率的勾配アルゴリズムによってアクセスされる仮説セットが本質的にフラクタルに似ており、アルゴリズムに依存する Rademacher の複雑さに対してより厳密な境界を導出できることを利用して達成します。
主な議論は、分数ブラウン運動によって駆動される連続時間確率微分方程式を介した離散時間再帰プロセスのモデル化に基づいています。
数値研究は、私たちのアプローチが、ResNet や Vision Transformer などの最新のニューラル ネットワークに対して、大規模なデータセット (ImageNet-1K など) でトレーニングされた場合でも、妥当な一般化保証をもたらすことができることを示しています。

要約(オリジナル)

One of the fundamental challenges in the deep learning community is to theoretically understand how well a deep neural network generalizes to unseen data. However, current approaches often yield generalization bounds that are either too loose to be informative of the true generalization error or only valid to the compressed nets. In this study, we present a simple yet non-vacuous generalization bound from the optimization perspective. We achieve this goal by leveraging that the hypothesis set accessed by stochastic gradient algorithms is essentially fractal-like and thus can derive a tighter bound over the algorithm-dependent Rademacher complexity. The main argument rests on modeling the discrete-time recursion process via a continuous-time stochastic differential equation driven by fractional Brownian motion. Numerical studies demonstrate that our approach is able to yield plausible generalization guarantees for modern neural networks such as ResNet and Vision Transformer, even when they are trained on a large-scale dataset (e.g. ImageNet-1K).

arxiv情報

著者 Chengli Tan,Jiangshe Zhang,Junmin Liu
発行日 2024-07-22 13:47:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク