要約
数百万または数十億のパラメーターを備えたディープニューラルネットワーク(NN)は、有限のトレーニングセットからトレーニングされた後、目に見えないデータで非常にうまく機能します。
NNSのこのような優れた能力を説明するために、さまざまな以前の理論が開発されていますが、テストエラーに意味のあるバウンドを提供しません。
PACベイと相互情報に基づいたいくつかの最近の理論は、vacuousなものではないため、NNSの優れたパフォーマンスを説明する大きな可能性を示しています。
ただし、多くの場合、関心のある訓練されたモデルに対する厳しい仮定と広範な修正(たとえば、圧縮、量子化)が必要です。
したがって、これらの以前の理論は、変更されたバージョンのみの保証を提供します。
この論文では、モデルのテストエラーに関する2つの新しい境界線を提案します。
私たちの境界はトレーニングセットのみを使用しており、モデルの変更は必要ありません。
これらの境界は、Imagenetデータセット上のPytorchによって前処理された最新のNNSの大規模なクラスで検証されており、vacuousです。
私たちの知る限り、これらは、この大規模なモデルを変更することはありません。
要約(オリジナル)
Deep neural network (NN) with millions or billions of parameters can perform really well on unseen data, after being trained from a finite training set. Various prior theories have been developed to explain such excellent ability of NNs, but do not provide a meaningful bound on the test error. Some recent theories, based on PAC-Bayes and mutual information, are non-vacuous and hence show a great potential to explain the excellent performance of NNs. However, they often require a stringent assumption and extensive modification (e.g. compression, quantization) to the trained model of interest. Therefore, those prior theories provide a guarantee for the modified versions only. In this paper, we propose two novel bounds on the test error of a model. Our bounds uses the training set only and require no modification to the model. Those bounds are verified on a large class of modern NNs, pretrained by Pytorch on the ImageNet dataset, and are non-vacuous. To the best of our knowledge, these are the first non-vacuous bounds at this large scale, without any modification to the pretrained models.
arxiv情報
著者 | Khoat Than,Dat Phan |
発行日 | 2025-03-10 13:40:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google