要約
この論文では、実装が簡単なパラメーター不要の勾配ベースの新しいオプティマイザー、DoWG (Distance over Weighted Gradients) を提案します。
私たちは、DoWG が効率的であること、凸最適化で最適に調整された勾配降下法の収束率をパラメーターを調整せずに対数係数まで一致させること、および普遍的であること、滑らかな問題と滑らかでない問題の両方に自動的に適応することを証明します。
AdaGrad、Adam、DoG などの一般的なアルゴリズムは二乗勾配の移動平均を計算しますが、DoWG は、目的の特性を達成するために重要な、新しい距離ベースの加重バージョンの移動平均を維持します。
私たちの知る限り、DoWG は、バックトラッキング検索手順を必要としない、パラメーターを使用しない、効率的で汎用的な最初のアルゴリズムです。
これは、スムーズな最適化に適応する初のパラメーターフリーの AdaGrad スタイル アルゴリズムでもあります。
私たちの理論を補完するために、DoWG が安定性の限界でトレーニングすることを経験的に示し、実際の機械学習タスクにおけるその有効性を検証します。
この論文は、正規化勾配降下法 (NGD) の新しい分析を提示することにより、AdaGrad アルゴリズム ファミリの成功の背後にある根本原理をさらに明らかにします。これは、NGD が、ステップサイズを変更せずに、存在する場合には滑らかさに適応することを示しています。
これは NGD の普遍性を確立し、標準の勾配降下法と比較してはるかに一般的な設定で安定性の限界でトレーニングするという経験的観察を部分的に説明します。
後者はコミュニティにとって独立した利益となる可能性があります。
要約(オリジナル)
This paper proposes a new easy-to-implement parameter-free gradient-based optimizer: DoWG (Distance over Weighted Gradients). We prove that DoWG is efficient — matching the convergence rate of optimally tuned gradient descent in convex optimization up to a logarithmic factor without tuning any parameters, and universal — automatically adapting to both smooth and nonsmooth problems. While popular algorithms such as AdaGrad, Adam, or DoG compute a running average of the squared gradients, DoWG maintains a new distance-based weighted version of the running average, which is crucial to achieve the desired properties. To our best knowledge, DoWG is the first parameter-free, efficient, and universal algorithm that does not require backtracking search procedures. It is also the first parameter-free AdaGrad style algorithm that adapts to smooth optimization. To complement our theory, we also show empirically that DoWG trains at the edge of stability, and validate its effectiveness on practical machine learning tasks. This paper further uncovers the underlying principle behind the success of the AdaGrad family of algorithms by presenting a novel analysis of Normalized Gradient Descent (NGD), that shows NGD adapts to smoothness when it exists, with no change to the stepsize. This establishes the universality of NGD and partially explains the empirical observation that it trains at the edge of stability in a much more general setup compared to standard gradient descent. The latter might be of independent interest to the community.
arxiv情報
著者 | Ahmed Khaled,Konstantin Mishchenko,Chi Jin |
発行日 | 2023-05-25 17:40:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google