Highly over-parameterized classifiers generalize since bad solutions are rare

要約

私たちは、学習のための経験的リスク最小化 (ERM) がトレーニング エラーをゼロにする、過剰パラメータ化された分類器の一般化を研究します。
これらの過剰にパラメータ化された設定では、トレーニング エラーがゼロの多数の大域的最小値が存在し、そのうちのいくつかは他のものよりも一般化が優れています。
特定の条件下では、{\epsilon} より大きい真の誤差を持つ「悪い」大域的最小値の割合が、トレーニング データの数 n とともに指数関数的に速くゼロに減衰することを示します。
限界は、特定の分類問題に使用される分類子関数のセットにわたる真の誤差の分布に依存し、分類子関数セットのサイズや複雑さ (パラメーターの数など) には必ずしも依存しません。
これは、高度にパラメータ化されたニューラル ネットワークであっても、予想外に良好な一般化を説明できる可能性があります。
私たちは、合成データセットと MNIST のサブセットでの実験によって数学的フレームワークをサポートしています。

要約(オリジナル)

We study the generalization of over-parameterized classifiers where Empirical Risk Minimization (ERM) for learning leads to zero training error. In these over-parameterized settings there are many global minima with zero training error, some of which generalize better than others. We show that under certain conditions the fraction of ‘bad’ global minima with a true error larger than {\epsilon} decays to zero exponentially fast with the number of training data n. The bound depends on the distribution of the true error over the set of classifier functions used for the given classification problem, and does not necessarily depend on the size or complexity (e.g. the number of parameters) of the classifier function set. This might explain the unexpectedly good generalization even of highly over-parameterized Neural Networks. We support our mathematical framework with experiments on a synthetic data set and a subset of MNIST.

arxiv情報

著者 Julius Martinetz,Thomas Martinetz
発行日 2023-05-24 16:20:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク