A Clipped Trip: the Dynamics of SGD with Gradient Clipping in High-Dimensions

要約

最新の機械学習の成功の一部は、複雑なデータセット上で大規模なモデルをトレーニングする際の困難に対処するために開発された適応最適化手法によるものです。
そのような方法の 1 つは勾配クリッピングです。これは理論的根拠が限られている実用的な手順です。
この研究では、ストリーミング SGD の下での最小二乗問題でのクリッピングを研究します。
私たちは、モデルとデータセットに依存する次元の概念である大きな固有次元の制限における学習ダイナミクスの理論的分析を開発します。
この限界では、損失の発展を記述する決定論的な方程式が見つかります。
ガウス ノイズ クリッピングでは SGD のパフォーマンスを改善できないことを示します。
ただし、他のノイズの多い設定では、クリッピングしきい値を調整することでクリッピングによる利点が得られる場合があります。
このような場合、クリッピングバイアスは、どのスケジュールでも SGD によって回復できないトレーニングに有益な方法で更新をバイアスします。
最後に、高次元クリッピングとニューラル ネットワーク トレーニングの関係について説明します。

要約(オリジナル)

The success of modern machine learning is due in part to the adaptive optimization methods that have been developed to deal with the difficulties of training large models over complex datasets. One such method is gradient clipping: a practical procedure with limited theoretical underpinnings. In this work, we study clipping in a least squares problem under streaming SGD. We develop a theoretical analysis of the learning dynamics in the limit of large intrinsic dimension-a model and dataset dependent notion of dimensionality. In this limit we find a deterministic equation that describes the evolution of the loss. We show that with Gaussian noise clipping cannot improve SGD performance. Yet, in other noisy settings, clipping can provide benefits with tuning of the clipping threshold. In these cases, clipping biases updates in a way beneficial to training which cannot be recovered by SGD under any schedule. We conclude with a discussion about the links between high-dimensional clipping and neural network training.

arxiv情報

著者 Noah Marshall,Ke Liang Xiao,Atish Agarwala,Elliot Paquette
発行日 2024-06-17 16:50:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク