Parameter-Agnostic Optimization under Relaxed Smoothness

要約

ステップサイズなどのハイパーパラメータの調整は、機械学習モデルのトレーニングにおける大きな課題となります。
この課題に対処するために、損失関数が $L$-smooth であれば、ステップサイズが問題固有のパラメーターに依存しない場合でも、最適に近い複雑さを達成する多数の適応最適化アルゴリズムが開発されてきました。
ただし、仮定がより現実的な $(L_0, L_1)$-平滑度に緩和されると、既存のすべての収束結果では依然としてステップサイズの調整が必要になります。
この研究では、運動量を伴う正規化確率的勾配降下法 (NSGD-M) が、問題パラメータの事前知識がなくても (ほぼ) レート最適な複雑さを達成できることを実証しますが、これには $ に依存する指数項を導入するという代償が伴います。
複雑さは L_1$ です。
さらに、パラメータに依存しないアルゴリズム用に明示的に調整された下限の理論的枠組みを導入することにより、この指数項がそのようなスキームにとって避けられないことを確立します。
興味深いことに、決定論的な設定では、バックトラッキング ライン検索で勾配降下法を使用することによって、指数関数的要因を中和することができます。
私たちの知る限り、これらの発見は、一般化された滑らかさ条件下でのパラメーターに依存しない最初の収束結果を表しています。
私たちの実証実験は、理論的な洞察をさらに裏付けます。

要約(オリジナル)

Tuning hyperparameters, such as the stepsize, presents a major challenge of training machine learning models. To address this challenge, numerous adaptive optimization algorithms have been developed that achieve near-optimal complexities, even when stepsizes are independent of problem-specific parameters, provided that the loss function is $L$-smooth. However, as the assumption is relaxed to the more realistic $(L_0, L_1)$-smoothness, all existing convergence results still necessitate tuning of the stepsize. In this study, we demonstrate that Normalized Stochastic Gradient Descent with Momentum (NSGD-M) can achieve a (nearly) rate-optimal complexity without prior knowledge of any problem parameter, though this comes at the cost of introducing an exponential term dependent on $L_1$ in the complexity. We further establish that this exponential term is inevitable to such schemes by introducing a theoretical framework of lower bounds tailored explicitly for parameter-agnostic algorithms. Interestingly, in deterministic settings, the exponential factor can be neutralized by employing Gradient Descent with a Backtracking Line Search. To the best of our knowledge, these findings represent the first parameter-agnostic convergence results under the generalized smoothness condition. Our empirical experiments further confirm our theoretical insights.

arxiv情報

著者 Florian Hübler,Junchi Yang,Xiang Li,Niao He
発行日 2023-11-06 16:39:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク