Don’t be so Monotone: Relaxing Stochastic Line Search in Over-Parameterized Models

要約

最近の研究では、現代の過剰パラメータ化設定において、ライン探索法が確率的勾配降下法 (SGD) と Adam を高速化できることが示されています。
ただし、既存のライン サーチでは、(ミニ)バッチ目的関数の単調減少が必要なため、必要なステップよりも小さいステップが実行される可能性があります。
この条件を緩和し、より大きなステップ サイズを許容できる可能性がある非単調ライン探索方法を検討します。
単調減少がないにもかかわらず、単調の場合と同じ速い収束速度を証明します。
私たちの実験は、非単調手法により、以前の単調ライン検索を超えて SGD/Adam の収束速度と汎化特性が向上することを示しています。
我々は、非単調ライン探索と Polyak 初期ステップ サイズを組み合わせることによって得られる POlyak NOnmonotone Stochastic (PoNoS) メソッドを提案します。
さらに、大きな初期ステップ サイズを維持しながら、反復の大部分でバックトラックの量をゼロに減らす新しいリセット手法を開発しました。
私たちの知る限り、最初の実行時間の比較では、ラインサーチベースの手法の画期的な利点が全体の計算時間に反映されていることがわかります。

要約(オリジナル)

Recent works have shown that line search methods can speed up Stochastic Gradient Descent (SGD) and Adam in modern over-parameterized settings. However, existing line searches may take steps that are smaller than necessary since they require a monotone decrease of the (mini-)batch objective function. We explore nonmonotone line search methods to relax this condition and possibly accept larger step sizes. Despite the lack of a monotonic decrease, we prove the same fast rates of convergence as in the monotone case. Our experiments show that nonmonotone methods improve the speed of convergence and generalization properties of SGD/Adam even beyond the previous monotone line searches. We propose a POlyak NOnmonotone Stochastic (PoNoS) method, obtained by combining a nonmonotone line search with a Polyak initial step size. Furthermore, we develop a new resetting technique that in the majority of the iterations reduces the amount of backtracks to zero while still maintaining a large initial step size. To the best of our knowledge, a first runtime comparison shows that the epoch-wise advantage of line-search-based methods gets reflected in the overall computational time.

arxiv情報

著者 Leonardo Galli,Holger Rauhut,Mark Schmidt
発行日 2023-10-25 15:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク