Provably Faster Gradient Descent via Long Steps

要約

この研究では、コンピューター支援分析技術を使用して、勾配降下法でより高速な収束速度を確立しました。
私たちの理論では、ほとんどの一次法の解析で使用される典型的な 1 回の反復帰納法ではなく、多数の反復の全体的な効果を一度に分析することで、降下に違反する可能性のある長いステップが頻繁に発生する非定数ステップサイズ ポリシーが可能になります。
短期的には目標値を増加させる可能性のある長いステップが、長期的には明らかにより速い収束につながることを示します。
単純な数値検証とともに、勾配降下法のより高速な $O(1/T\log T)$ レートを証明するための推測も動機付けられます。

要約(オリジナル)

This work establishes provably faster convergence rates for gradient descent via a computer-assisted analysis technique. Our theory allows nonconstant stepsize policies with frequent long steps potentially violating descent by analyzing the overall effect of many iterations at once rather than the typical one-iteration inductions used in most first-order method analyses. We show that long steps, which may increase the objective value in the short term, lead to provably faster convergence in the long term. A conjecture towards proving a faster $O(1/T\log T)$ rate for gradient descent is also motivated along with simple numerical validation.

arxiv情報

著者 Benjamin Grimmer
発行日 2023-07-17 16:03:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA, math.OC パーマリンク