High Probability Analysis for Non-Convex Stochastic Optimization with Clipping

要約

勾配クリッピングは、ニューラル ネットワークのトレーニング プロセスを安定させるために一般的に使用される手法です。
一連の研究では、勾配クリッピングが確率的最適化でも発生したヘビーテール動作に対処するための有望な手法であることが示されています。
勾配クリッピングは重要ですが、その理論的な保証はほとんどありません。
理論上の保証のほとんどは、期待内の分析のみを提供し、最適化パフォーマンスのみに焦点を当てています。
この論文では、非凸設定での高確率解析を提供し、確率的勾配降下法とその変形の運動量と適応ステップサイズを含む、勾配クリッピングを伴う一般的な確率的最適化アルゴリズムの最適化限界と一般化限界を同時に導出します。
勾配クリッピングを使用して、勾配には $\alpha \in (1, 2]$ についての有界 $\alpha$-th モーメントのみがあり、標準の有界 2 次モーメントよりもはるかに弱いというヘビーテール仮定を研究します。
全体として、私たちの研究は、クリッピングを伴う確率的最適化アルゴリズムの理論的保証について比較的完全な全体像を提供します。

要約(オリジナル)

Gradient clipping is a commonly used technique to stabilize the training process of neural networks. A growing body of studies has shown that gradient clipping is a promising technique for dealing with the heavy-tailed behavior that emerged in stochastic optimization as well. While gradient clipping is significant, its theoretical guarantees are scarce. Most theoretical guarantees only provide an in-expectation analysis and only focus on optimization performance. In this paper, we provide high probability analysis in the non-convex setting and derive the optimization bound and the generalization bound simultaneously for popular stochastic optimization algorithms with gradient clipping, including stochastic gradient descent and its variants of momentum and adaptive stepsizes. With the gradient clipping, we study a heavy-tailed assumption that the gradients only have bounded $\alpha$-th moments for some $\alpha \in (1, 2]$, which is much weaker than the standard bounded second-moment assumption. Overall, our study provides a relatively complete picture for the theoretical guarantee of stochastic optimization algorithms with clipping.

arxiv情報

著者 Shaojie Li,Yong Liu
発行日 2023-07-25 17:36:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク