High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise

要約

確率的一次法は、大規模な機械学習モデルをトレーニングするための標準です。
ランダムな動作により、アルゴリズムの特定の実行が非常に次善の目標値をもたらす可能性がありますが、理論的な保証は通常、目標値の期待に対して証明されます。
したがって、アルゴリズムが小さな客観的残差を高い確率で提供することを理論的に保証することが不可欠です。
非滑らかな確率的凸最適化のための既存の方法には、負のべき乗または対数の信頼水準に依存する複雑さの限界がありますが、実際には当てはまらない可能性のあるサブガウス (ライトテール) ノイズ分布の追加の仮定の下にあります。
私たちの論文では、この問題を解決し、非サブガウス (ヘビーテール) ノイズを伴う非滑らかな凸確率的最適化問題に対する信頼水準の対数依存性を伴う最初の高確率収束結果を導き出します。
結果を導き出すために、勾配クリッピングを使用した 2 つの確率的手法に対する新しいステップサイズ ルールを提案します。
さらに、私たちの分析は、より古い連続勾配を使用した一般化された滑らかな目的に対して機能し、どちらの方法でも、強い凸面の問題に対する拡張機能を提供します。
最後に、私たちの結果は、私たちが検討した最初の(高速化された)方法もすべてのレジームで最適な反復とオラクルの複雑さを持ち、2 番目の方法は非スムーズな設定で最適であることを示唆しています。

要約(オリジナル)

Stochastic first-order methods are standard for training large-scale machine learning models. Random behavior may cause a particular run of an algorithm to result in a highly suboptimal objective value, whereas theoretical guarantees are usually proved for the expectation of the objective value. Thus, it is essential to theoretically guarantee that algorithms provide small objective residual with high probability. Existing methods for non-smooth stochastic convex optimization have complexity bounds with the dependence on the confidence level that is either negative-power or logarithmic but under an additional assumption of sub-Gaussian (light-tailed) noise distribution that may not hold in practice. In our paper, we resolve this issue and derive the first high-probability convergence results with logarithmic dependence on the confidence level for non-smooth convex stochastic optimization problems with non-sub-Gaussian (heavy-tailed) noise. To derive our results, we propose novel stepsize rules for two stochastic methods with gradient clipping. Moreover, our analysis works for generalized smooth objectives with H\’older-continuous gradients, and for both methods, we provide an extension for strongly convex problems. Finally, our results imply that the first (accelerated) method we consider also has optimal iteration and oracle complexity in all the regimes, and the second one is optimal in the non-smooth setting.

arxiv情報

著者 Eduard Gorbunov,Marina Danilova,Innokentiy Shibaev,Pavel Dvurechensky,Alexander Gasnikov
発行日 2024-08-30 13:35:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク