要約
ノイズに関する穏やかな仮定の下での確率的一次最適化法の高確率解析は、近年大きな注目を集めています。
通常、勾配クリッピングは、ノイズがヘビーテールである場合に適切な高確率保証を導き出すための重要なアルゴリズム要素の 1 つです。
ただし、単純に実装すると、ノイズがない場合でも、クリッピングによって複合最適化および分散最適化の一般的な手法 (Prox-SGD/Parallel SGD) の収束が損なわれる可能性があります。
この理由により、高確率解析に関する多くの研究では、制約のない非分散問題のみが考慮されており、複合/分散問題の既存の結果には、重要な特殊なケース (強凸問題など) が含まれておらず、最適ではありません。
この問題に対処するために、確率的勾配差のクリッピングに基づいた複合最適化および分散最適化のための新しい確率的手法を提案し、新しい手法に対する厳密で確率の高い収束結果 (ほぼ最適なものを含む) を証明します。
同様のアイデアを使用して、複合および分散変分不等式に対する新しい手法を開発し、これらの手法の高確率収束を分析します。
要約(オリジナル)
High-probability analysis of stochastic first-order optimization methods under mild assumptions on the noise has been gaining a lot of attention in recent years. Typically, gradient clipping is one of the key algorithmic ingredients to derive good high-probability guarantees when the noise is heavy-tailed. However, if implemented na\’ively, clipping can spoil the convergence of the popular methods for composite and distributed optimization (Prox-SGD/Parallel SGD) even in the absence of any noise. Due to this reason, many works on high-probability analysis consider only unconstrained non-distributed problems, and the existing results for composite/distributed problems do not include some important special cases (like strongly convex problems) and are not optimal. To address this issue, we propose new stochastic methods for composite and distributed optimization based on the clipping of stochastic gradient differences and prove tight high-probability convergence results (including nearly optimal ones) for the new methods. Using similar ideas, we also develop new methods for composite and distributed variational inequalities and analyze the high-probability convergence of these methods.
arxiv情報
著者 | Eduard Gorbunov,Abdurakhmon Sadiev,Marina Danilova,Samuel Horváth,Gauthier Gidel,Pavel Dvurechensky,Alexander Gasnikov,Peter Richtárik |
発行日 | 2024-07-24 14:10:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google