要約
ディープ ニューラル ネットワーク分類器は、入力空間をクラスごとに信頼性の高い領域に分割します。
これらのクラス多様体 (CM) のジオメトリは広く研究されており、モデルのパフォーマンスと密接に関連しています。
たとえば、マージンは CM 境界に依存します。
ガウス幅の概念とゴードンのエスケープ定理を利用して、さまざまな次元のランダムなアフィン部分空間とのトモグラフィーの交差を通じて、CM とその境界の実効次元を扱いやすく推定します。
CM の次元、一般化、および堅牢性の間のいくつかの接続を示します。
特に、CM 次元が 1) データセット、2) アーキテクチャ (ResNet、WideResNet \& Vision Transformer を含む)、3) 初期化、4) トレーニングの段階、5) クラス、6) ネットワーク幅、7) アンサンブルにどのように依存するかを調査します。
サイズ、8) ラベルのランダム化、9) トレーニング セットのサイズ、および 10) データ破損に対する堅牢性。
より高性能でより堅牢なモデルは、より高次元の CM を持っているという全体像が浮かび上がります。
さらに、CM の交差によるアンサンブルの新しい視点を提供します。
私たちのコードは https://github.com/stanislavfort/slice-dice-optimize/ にあります
要約(オリジナル)
Deep neural network classifiers partition input space into high confidence regions for each class. The geometry of these class manifolds (CMs) is widely studied and intimately related to model performance; for example, the margin depends on CM boundaries. We exploit the notions of Gaussian width and Gordon’s escape theorem to tractably estimate the effective dimension of CMs and their boundaries through tomographic intersections with random affine subspaces of varying dimension. We show several connections between the dimension of CMs, generalization, and robustness. In particular we investigate how CM dimension depends on 1) the dataset, 2) architecture (including ResNet, WideResNet \& Vision Transformer), 3) initialization, 4) stage of training, 5) class, 6) network width, 7) ensemble size, 8) label randomization, 9) training set size, and 10) robustness to data corruption. Together a picture emerges that higher performing and more robust models have higher dimensional CMs. Moreover, we offer a new perspective on ensembling via intersections of CMs. Our code is at https://github.com/stanislavfort/slice-dice-optimize/
arxiv情報
著者 | Stanislav Fort,Ekin Dogus Cubuk,Surya Ganguli,Samuel S. Schoenholz |
発行日 | 2022-10-11 15:42:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google