要約
分類問題でほぼゼロのトレーニング誤差を達成するには、フィードフォワード ネットワークの層は、識別を容易にするために、異なるラベルを持つデータ ポイントの多様体を解きほぐす必要があります。
ただし、適切な一般化にはある程度のレベルのもつれを伴う不変特徴の学習が必要であるため、過度のクラス分離は過剰適合を引き起こす可能性があります。
最適化ダイナミクスがこれらの相反する傾向と非単調な傾向のバランスをとる表現をどのように見つけるかを示す数値実験について報告します。
高速な分離フェーズの後、より遅い再配置 (データ セットとアーキテクチャ間で保存される) によりクラスのもつれが増加します。反転時のトレーニング エラーは、サブサンプリング下およびネットワークの初期化とオプティマイザー全体で安定しており、データのみのプロパティとして特徴付けられます。
構造と(非常に弱い)アーキテクチャの。
反転は、訓練セットの明確に定義された最大限に安定した要素、つまり「ストラグラー」という造語によって引き起こされるトレードオフの現れであり、一般化に特に影響を与えます。
要約(オリジナル)
To achieve near-zero training error in a classification problem, the layers of a feed-forward network have to disentangle the manifolds of data points with different labels, to facilitate the discrimination. However, excessive class separation can bring to overfitting since good generalisation requires learning invariant features, which involve some level of entanglement. We report on numerical experiments showing how the optimisation dynamics finds representations that balance these opposing tendencies with a non-monotonic trend. After a fast segregation phase, a slower rearrangement (conserved across data sets and architectures) increases the class entanglement.The training error at the inversion is stable under subsampling, and across network initialisations and optimisers, which characterises it as a property solely of the data structure and (very weakly) of the architecture. The inversion is the manifestation of tradeoffs elicited by well-defined and maximally stable elements of the training set, coined “stragglers”, particularly influential for generalisation.
arxiv情報
著者 | Simone Ciceri,Lorenzo Cassani,Matteo Osella,Pietro Rotondo,Filippo Valle,Marco Gherardi |
発行日 | 2024-02-23 17:21:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google