DoWG Unleashed: An Efficient Universal Parameter-Free Gradient Descent Method

要約

この論文では、実装が簡単なパラメーター不要の勾配ベースの新しいオプティマイザー、DoWG (Distance over Weighted Gradients) を提案します。
私たちは、DoWG が効率的であること、凸最適化で最適に調整された勾配降下法の収束率をパラメーターを調整せずに対数係数まで一致させること、および普遍的であること、滑らかな問題と滑らかでない問題の両方に自動的に適応することを証明します。
AdaGrad フレームワークに従う一般的なアルゴリズムは、正規化に使用する二乗勾配の移動平均を計算しますが、DoWG は、目的の特性を達成するために重要な、新しい距離ベースの加重バージョンの移動平均を維持します。
私たちの理論を補完するために、DoWG が安定性の限界でトレーニングすることを経験的に示し、実際の機械学習タスクにおけるその有効性を検証します。

要約(オリジナル)

This paper proposes a new easy-to-implement parameter-free gradient-based optimizer: DoWG (Distance over Weighted Gradients). We prove that DoWG is efficient — matching the convergence rate of optimally tuned gradient descent in convex optimization up to a logarithmic factor without tuning any parameters, and universal — automatically adapting to both smooth and nonsmooth problems. While popular algorithms following the AdaGrad framework compute a running average of the squared gradients to use for normalization, DoWG maintains a new distance-based weighted version of the running average, which is crucial to achieve the desired properties. To complement our theory, we also show empirically that DoWG trains at the edge of stability, and validate its effectiveness on practical machine learning tasks.

arxiv情報

著者 Ahmed Khaled,Konstantin Mishchenko,Chi Jin
発行日 2023-10-29 19:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク