要約
この論文では、非凸非凹ミニマックス最適化問題 (つまり、$\min_x\max_y f(x,y)$) のクラスを研究します。ここで、$f(x,y)$ は $x$ で非凸である可能性があり、
は非凹で、$y$ で Polyak-Lojasiewicz (PL) 条件を満たします。
さらに、これらの確率的非凸 PL ミニマックス問題を解決するために、強化された運動量ベースの勾配降下法 (すなわち、MSGDA および AdaMSGDA) のクラスを提案します。
特に、AdaMSGDA アルゴリズムは、変数 $x$ および $y$ を更新する際に、グローバルおよび座標ごとの適応学習率に依存することなく、さまざまな適応学習率を使用できます。
理論的には、メソッドの効果的な収束解析フレームワークを提示します。
具体的には、MSGDA および AdaMSGDA メソッドが、$\epsilon$ 定常解を見つける際に各ループで 1 つのサンプルのみを必要とする $O(\epsilon^{-3})$ という最もよく知られているサンプル (勾配) の複雑さを持っていることを証明します (
すなわち、$\mathbb{E}\|\nabla F(x)\|\leq \epsilon$、ここで $F(x)=\max_y f(x,y)$)。
この原稿は、数学者ボリス ポリアック (1935-2023) を記念しています。
要約(オリジナル)
In the paper, we study a class of nonconvex nonconcave minimax optimization problems (i.e., $\min_x\max_y f(x,y)$), where $f(x,y)$ is possible nonconvex in $x$, and it is nonconcave and satisfies the Polyak-Lojasiewicz (PL) condition in $y$. Moreover, we propose a class of enhanced momentum-based gradient descent ascent methods (i.e., MSGDA and AdaMSGDA) to solve these stochastic Nonconvex-PL minimax problems. In particular, our AdaMSGDA algorithm can use various adaptive learning rates in updating the variables $x$ and $y$ without relying on any global and coordinate-wise adaptive learning rates. Theoretically, we present an effective convergence analysis framework for our methods. Specifically, we prove that our MSGDA and AdaMSGDA methods have the best known sample (gradient) complexity of $O(\epsilon^{-3})$ only requiring one sample at each loop in finding an $\epsilon$-stationary solution (i.e., $\mathbb{E}\|\nabla F(x)\|\leq \epsilon$, where $F(x)=\max_y f(x,y)$). This manuscript commemorates the mathematician Boris Polyak (1935-2023).
arxiv情報
著者 | Feihu Huang |
発行日 | 2023-03-13 15:11:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google