要約
私たちは、自然データにおける深さと特定のヘビーテール構造の相互作用から生じる、ニューラル ネットワークの最適化における新しい現象を特定します。
私たちの結果は、ネットワーク トレーニングのダイナミクスについて以前に報告されたいくつかの観察結果に対して直感的な説明を提供します。
特に、これは、漸進的なシャープ化と安定性の限界に対する概念的に新しい原因を意味します。
また、グロッキング、単純性バイアス、シャープネスを意識した最小化など、最適化と一般化における他の概念との関連性も強調します。
実験的に、強い反対信号を持つトレーニング データ内の外れ値のペアのグループが大きな影響を与えることを実証します。つまり、トレーニング全体を通じてネットワーク出力を支配し、反対方向を指す勾配を提供する、一貫した大きな振幅の特徴です。
これらの外れ値のため、初期の最適化は狭い谷に入り、対立するグループのバランスを慎重にとります。
その後のシャープ化により、損失が急速に上昇し、全体の損失が急増するまで、一方のグループで高い値と、次にもう一方のグループで高い値との間で振動します。
これらのグループを特定し、それらの特徴を探り、ネットワークの最適化と動作に対するグループの影響を注意深く研究する方法について説明します。
これらの実験を、反対信号のおもちゃの例に関するメカニズムの説明と、単純なモデル上の 2 層線形ネットワークの理論的分析で補完します。
私たちの発見は、実験的に確認されたトレーニング行動の新しい定性的予測を可能にします。
また、確率的最適化のための最新のトレーニング実践を研究および改善するための新しいレンズも提供します。これは、Adam と SGD のケーススタディを通じて強調表示されます。
要約(オリジナル)
We identify a new phenomenon in neural network optimization which arises from the interaction of depth and a particular heavy-tailed structure in natural data. Our result offers intuitive explanations for several previously reported observations about network training dynamics. In particular, it implies a conceptually new cause for progressive sharpening and the edge of stability; we also highlight connections to other concepts in optimization and generalization including grokking, simplicity bias, and Sharpness-Aware Minimization. Experimentally, we demonstrate the significant influence of paired groups of outliers in the training data with strong opposing signals: consistent, large magnitude features which dominate the network output throughout training and provide gradients which point in opposite directions. Due to these outliers, early optimization enters a narrow valley which carefully balances the opposing groups; subsequent sharpening causes their loss to rise rapidly, oscillating between high on one group and then the other, until the overall loss spikes. We describe how to identify these groups, explore what sets them apart, and carefully study their effect on the network’s optimization and behavior. We complement these experiments with a mechanistic explanation on a toy example of opposing signals and a theoretical analysis of a two-layer linear network on a simple model. Our finding enables new qualitative predictions of training behavior which we confirm experimentally. It also provides a new lens through which to study and improve modern training practices for stochastic optimization, which we highlight via a case study of Adam versus SGD.
arxiv情報
著者 | Elan Rosenfeld,Andrej Risteski |
発行日 | 2023-11-07 17:43:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google