要約
この論文では、「運動量」用語を使用する確率的最適化のための統一されたアルゴリズムを提示します。
言い換えれば、確率的勾配は、目的関数の現在の真の勾配だけでなく、前の反復での真の勾配にも依存します。
私たちの定式化には、確率的重ボール(SHB)と、特別なケースとしての確率的ネステロフ加速勾配(SNAG)アルゴリズムが含まれます。
さらに、製剤では、運動量の項は時間の関数として変化することが許可されています(つまり、反復カウンター)。
確率的勾配に関する仮定は、偏っている可能性があり、時間の関数として無制限の方法で成長する条件付きの分散を持つという点で、文献で最も一般的です。
この最後の機能は、理論を「ゼロオーダー」メソッドに適用できるようにするために重要です。ここで、勾配は2つの関数評価のみを使用して推定されます。
統一アルゴリズムの収束に十分な条件のセットを提示します。
これらの条件は、標準的な確率的勾配降下のための、おなじみのロビンズ・モンロとキーファー・ウルフウィッツ・ブラムの条件の自然な一般化です。
また、時変運動量パラメーターを使用して、SHBアルゴリズムの文献から別の方法を分析し、実行不可能であることを示します。
要約(オリジナル)
In this paper, we present a unified algorithm for stochastic optimization that makes use of a ‘momentum’ term; in other words, the stochastic gradient depends not only on the current true gradient of the objective function, but also on the true gradient at the previous iteration. Our formulation includes the Stochastic Heavy Ball (SHB) and the Stochastic Nesterov Accelerated Gradient (SNAG) algorithms as special cases. In addition, in our formulation, the momentum term is allowed to vary as a function of time (i.e., the iteration counter). The assumptions on the stochastic gradient are the most general in the literature, in that it can be biased, and have a conditional variance that grows in an unbounded fashion as a function of time. This last feature is crucial in order to make the theory applicable to ‘zero-order’ methods, where the gradient is estimated using just two function evaluations. We present a set of sufficient conditions for the convergence of the unified algorithm. These conditions are natural generalizations of the familiar Robbins-Monro and Kiefer-Wolfowitz-Blum conditions for standard stochastic gradient descent. We also analyze another method from the literature for the SHB algorithm with a time-varying momentum parameter, and show that it is impracticable.
arxiv情報
著者 | Mathukumalli Vidyasagar |
発行日 | 2025-06-13 15:53:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google