Stochastic Gradient Descent-Ascent: Unified Theory and New Efficient Methods

要約

確率的勾配降下法 (SGDA) は、さまざまな機械学習タスクに現れる最小最大最適化および変分不等式問題 (VIP) を解決するための最も著名なアルゴリズムの 1 つです。
この方法の成功により、従来の SGDA のいくつかの高度な拡張が行われました。これには、任意のサンプリング、分散の削減、座標のランダム化、および圧縮を使用した分散型のバリアントが含まれます。これらは、特に過去数年間、文献で広く研究されていました。
この論文では、これまでさまざまな直感を必要とし、さまざまなアプリケーションを持ち、さまざまなコミュニティで別々に開発されてきた、多種多様な確率的勾配降下-上昇法をカバーする統一収束分析を提案します。
私たちの統一されたフレームワークの鍵は、確率的推定に関するパラメトリックな仮定です。
私たちの一般的な理論的枠組みを介して、既知の特殊なケースの最も鋭い既知のレートを回復するか、それらを引き締めます。
さらに、私たちのアプローチの柔軟性を示すために、新しい分散削減法 (L-SVRGDA)、圧縮を伴う新しい分散法 (QSGDA、DIANA-SGDA、VR-DIANA-SGDA)、および
座標ランダム化 (SEGA-SGDA) を使用した新しい方法。
新しい方法の変種は最小化問題を解くことで知られていますが、最小最大問題や VIP を解くために考慮または分析されることはありませんでした。
また、広範な数値実験を通じて、新しい方法の最も重要な特性を示します。

要約(オリジナル)

Stochastic Gradient Descent-Ascent (SGDA) is one of the most prominent algorithms for solving min-max optimization and variational inequalities problems (VIP) appearing in various machine learning tasks. The success of the method led to several advanced extensions of the classical SGDA, including variants with arbitrary sampling, variance reduction, coordinate randomization, and distributed variants with compression, which were extensively studied in the literature, especially during the last few years. In this paper, we propose a unified convergence analysis that covers a large variety of stochastic gradient descent-ascent methods, which so far have required different intuitions, have different applications and have been developed separately in various communities. A key to our unified framework is a parametric assumption on the stochastic estimates. Via our general theoretical framework, we either recover the sharpest known rates for the known special cases or tighten them. Moreover, to illustrate the flexibility of our approach we develop several new variants of SGDA such as a new variance-reduced method (L-SVRGDA), new distributed methods with compression (QSGDA, DIANA-SGDA, VR-DIANA-SGDA), and a new method with coordinate randomization (SEGA-SGDA). Although variants of the new methods are known for solving minimization problems, they were never considered or analyzed for solving min-max problems and VIPs. We also demonstrate the most important properties of the new methods through extensive numerical experiments.

arxiv情報

著者 Aleksandr Beznosikov,Eduard Gorbunov,Hugo Berard,Nicolas Loizou
発行日 2023-03-08 13:33:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク