Training Dynamics of Deep Network Linear Regions

要約

ディープ ネットワーク (DN) トレーニング ダイナミクスの研究は主に、トレーニングおよびテスト セットのデータ ポイント上またはその周囲で評価される損失関数の進化に焦点を当ててきました。
実際、二重降下やグロッキングなど、多くの DN 現象がこの点に関して文献で初めて紹介されました。
この研究では、入力空間パーティションまたは連続区分的アフィン DN によって形成される線形領域 (たとえば、(漏れのある)ReLU 非線形性を持つネットワーク) のトレーニング ダイナミクスに注目します。
まず、データ ポイントの周囲の任意次元の近傍内の線形領域の集中に基づいて、DN の局所複雑度 (LC) を網羅する新しい統計を提示します。
トレーニング中に、データ ポイントの周囲の LC が、初期化後の減少傾向から始まり、その後上昇し、最終的な下降傾向で終わる、いくつかの段階を経ることが観察されます。
正確な視覚化手法を使用すると、トレーニングの最後の LC 降下フェーズ中に、線形領域がトレーニングとテスト サンプルから判定境界に向かって移動し、それ以外の場所では DN 入出力がほぼ線形になるという、複雑な観察に遭遇しました。
また、さまざまな LC フェーズが、特にグロッキング中の DN の記憶と汎化のパフォーマンスに密接に関連していることも観察されています。

要約(オリジナル)

The study of Deep Network (DN) training dynamics has largely focused on the evolution of the loss function, evaluated on or around train and test set data points. In fact, many DN phenomenon were first introduced in literature with that respect, e.g., double descent, grokking. In this study, we look at the training dynamics of the input space partition or linear regions formed by continuous piecewise affine DNs, e.g., networks with (leaky)ReLU nonlinearities. First, we present a novel statistic that encompasses the local complexity (LC) of the DN based on the concentration of linear regions inside arbitrary dimensional neighborhoods around data points. We observe that during training, the LC around data points undergoes a number of phases, starting with a decreasing trend after initialization, followed by an ascent and ending with a final descending trend. Using exact visualization methods, we come across the perplexing observation that during the final LC descent phase of training, linear regions migrate away from training and test samples towards the decision boundary, making the DN input-output nearly linear everywhere else. We also observe that the different LC phases are closely related to the memorization and generalization performance of the DN, especially during grokking.

arxiv情報

著者 Ahmed Imtiaz Humayun,Randall Balestriero,Richard Baraniuk
発行日 2023-10-19 17:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク