Steering Deep Feature Learning with Backward Aligned Feature Updates

要約

深層学習は階層的な特徴学習を行うことで成功しますが、初期化スケールや学習率などのハイパーパラメーター (HP) の調整は、この動作を間接的に制御するだけです。
この論文では、特徴の学習を予測、測定、制御するための重要な概念として、特徴の更新とバックワード パスの間の調整を提案します。
一方で、アラインメントが成立する場合、1 つの SGD ステップ後の特徴更新の大きさは、単純かつ一般的な公式によって、前方パスと後方パスの大きさに関係していることを示します。
これは、初期化時およびトレーニング全体を通して HP (初期化スケールと学習率) を自動的に調整して、望ましい特徴学習動作を達成する技術につながります。
一方、ランダムな初期化では、このアライメントは特定のカーネルのスペクトルによって決定され、よく調整された層間のヤコビアン (別名動的アイソメトリ) がアライメントを意味することを示します。
最後に、幅と深さの制限が大きい ReLU MLP と ResNet を調査します。
ランダム行列理論と数値実験からのヒントを組み合わせて、(i) iid 初期化を伴う MLP では深さとともにアライメントが劣化し、トレーニングを開始できなくなること、および (ii) ResNets ではブランチ スケール $1/\sqrt{
\text{深さ}}$ は、無限の深さで自明ではない位置合わせを維持する唯一のものです。

要約(オリジナル)

Deep learning succeeds by doing hierarchical feature learning, yet tuning Hyper-Parameters (HP) such as initialization scales, learning rates etc., only give indirect control over this behavior. In this paper, we propose the alignment between the feature updates and the backward pass as a key notion to predict, measure and control feature learning. On the one hand, we show that when alignment holds, the magnitude of feature updates after one SGD step is related to the magnitude of the forward and backward passes by a simple and general formula. This leads to techniques to automatically adjust HPs (initialization scales and learning rates) at initialization and throughout training to attain a desired feature learning behavior. On the other hand, we show that, at random initialization, this alignment is determined by the spectrum of a certain kernel, and that well-conditioned layer-to-layer Jacobians (aka dynamical isometry) implies alignment. Finally, we investigate ReLU MLPs and ResNets in the large width-then-depth limit. Combining hints from random matrix theory and numerical experiments, we show that (i) in MLP with iid initializations, alignment degenerates with depth, making it impossible to start training, and that (ii) in ResNets, the branch scale $1/\sqrt{\text{depth}}$ is the only one maintaining non-trivial alignment at infinite depth.

arxiv情報

著者 Lénaïc Chizat,Praneeth Netrapalli
発行日 2023-11-30 17:19:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.LG パーマリンク