On Underdamped Nesterov’s Acceleration


タイトル: アンダーダンピング・ネステロフ加速について


– ネステロフの加速勾配降下法(NAG)とそのプロキシマル対応物であるより高速な縮小閾値アルゴリズム(FISTA)に対して、高分解能微分方程式の枠組みが適したことが明らかにされている。
– しかしながら、超減衰の場合($r <2$)に関しては、その理論的枠組みが完全ではなく未解決のままであった。 - この論文では、高分解能微分方程式の枠組みに基づき、$t^{\gamma}$または$k^{\gamma}$における時間の力または反復に動機づけられた新しいリャプノフ関数を超減衰の場合に構築している。 - 運動量パラメータ$r$が2の場合、新しいリャプノフ関数は以前のものと同一である。 - これらの新しい証明は、低分解能微分方程式の枠組みに基づいて以前に得られた目的関数値の収束速度だけでなく、最小勾配ノルムの収束速度も特徴付けている。 - 超減衰の場合に得られたすべての収束速度は、パラメータ$r$に連続的に依存している。 - さらに、高分解能微分方程式が臨界の場合$r=-1$におけるNAGの収束挙動を近似的にシミュレートすることが観察された。 - 低分解能微分方程式は保守的なニュートン方程式に退化する。 - 高分解能微分方程式の枠組みはまた、超減衰の場合に得られた収束速度を理論的に特徴付け、$r=-1$の場合に得られたものと一致している。


The high-resolution differential equation framework has been proven to be tailor-made for Nesterov’s accelerated gradient descent method~(\texttt{NAG}) and its proximal correspondence — the class of faster iterative shrinkage thresholding algorithms (FISTA). However, the systems of theories is not still complete, since the underdamped case ($r < 2$) has not been included. In this paper, based on the high-resolution differential equation framework, we construct the new Lyapunov functions for the underdamped case, which is motivated by the power of the time $t^{\gamma}$ or the iteration $k^{\gamma}$ in the mixed term. When the momentum parameter $r$ is $2$, the new Lyapunov functions are identical to the previous ones. These new proofs do not only include the convergence rate of the objective value previously obtained according to the low-resolution differential equation framework but also characterize the convergence rate of the minimal gradient norm square. All the convergence rates obtained for the underdamped case are continuously dependent on the parameter $r$. In addition, it is observed that the high-resolution differential equation approximately simulates the convergence behavior of~\texttt{NAG} for the critical case $r=-1$, while the low-resolution differential equation degenerates to the conservative Newton's equation. The high-resolution differential equation framework also theoretically characterizes the convergence rates, which are consistent with that obtained for the underdamped case with $r=-1$.


著者 Shuo Chen,Bin Shi,Ya-xiang Yuan
発行日 2023-04-28 06:08:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.NA, math.NA, math.OC パーマリンク