要約
この論文では、特に非滑らかな活性化関数から構築されたニューラル ネットワークのトレーニングにおける確率的勾配降下法 (SGD) とその変形の収束特性を調査します。
運動量項と変数をそれぞれ更新するためのステップサイズに異なるタイムスケールを割り当てる新しいフレームワークを開発します。
穏やかな条件下では、単一タイムスケールの場合と 2 タイムスケールの場合の両方で、提案したフレームワークの大域的収束を証明します。
私たちが提案したフレームワークが、ヘビーボール SGD、SignSGD、Lion、正規化 SGD、クリッピング SGD を含む、広く知られている SGD タイプの手法を包含していることを示します。
さらに、目的関数が有限和定式化を採用する場合、提案したフレームワークに基づいて、これらの SGD タイプの手法の収束特性を証明します。
特に、これらの SGD タイプの方法が、穏やかな仮定の下でランダムに選択されたステップサイズと初期点を使用して目的関数のクラーク定常点を見つけることを証明します。
予備的な数値実験により、分析した SGD タイプのメソッドの効率が高いことが実証されました。
要約(オリジナル)
In this paper, we investigate the convergence properties of the stochastic gradient descent (SGD) method and its variants, especially in training neural networks built from nonsmooth activation functions. We develop a novel framework that assigns different timescales to stepsizes for updating the momentum terms and variables, respectively. Under mild conditions, we prove the global convergence of our proposed framework in both single-timescale and two-timescale cases. We show that our proposed framework encompasses a wide range of well-known SGD-type methods, including heavy-ball SGD, SignSGD, Lion, normalized SGD and clipped SGD. Furthermore, when the objective function adopts a finite-sum formulation, we prove the convergence properties for these SGD-type methods based on our proposed framework. In particular, we prove that these SGD-type methods find the Clarke stationary points of the objective function with randomly chosen stepsizes and initial points under mild assumptions. Preliminary numerical experiments demonstrate the high efficiency of our analyzed SGD-type methods.
arxiv情報
著者 | Nachuan Xiao,Xiaoyin Hu,Kim-Chuan Toh |
発行日 | 2023-07-19 15:26:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google