Global Convergence Rate Analysis of Nonsmooth Nonconvex-Nonconcave Minimax Optimization

要約

非凸非凹ミニマックス最適化は、過去 10 年間にわたって幅広い関心を集めてきました。
ただし、既存の研究のほとんどは、滑らかな非凸凹設定でのみ適用できる勾配降下上昇 (GDA) アルゴリズムの変形に焦点を当てています。
この制限に対処するために、我々は、広範囲の構造化された非滑らかな非凸非凹ミニマックス問題を効果的に処理できる、平滑近位線形降下上昇 (平滑化 PLDA) という名前の新しいアルゴリズムを提案します。
具体的には、主関数が非滑らかな複合構造を持ち、双対関数が指数 $\theta \in [0,1)$ を持つ Kurdyka-\L{}ojasiewicz (K\L{}) プロパティを持つ設定を検討します。
平滑化 PLDA 用の新しい収束解析フレームワークを紹介します。その主要なコンポーネントは、新しく開発された非平滑主誤差境界プロパティと二重誤差境界プロパティです。
このフレームワークを使用して、平滑化 PLDA が $\mathcal{O}(\epsilon^{-2
\max\{2\theta,1\}})$ 回の反復。
さらに、$\theta \in [0,1/2]$ の場合、平滑化 PLDA は $\mathcal{O}(\epsilon^{-2})$ の最適な反復複雑さを達成します。
私たちの分析フレームワークの有効性と幅広い適用性をさらに実証するために、マイルドな仮定の下で、特定の最大構造問題が指数 $\theta=0$ を持つ K\L{} 特性を持つことを示します。
副産物として、さまざまな定常性概念間のアルゴリズムに依存しない量的関係を確立します。これは、独立して興味深いものになる可能性があります。

要約(オリジナル)

Nonconvex-nonconcave minimax optimization has gained widespread interest over the last decade. However, most existing work focuses on variants of gradient descent-ascent (GDA) algorithms, which are only applicable in smooth nonconvex-concave settings. To address this limitation, we propose a novel algorithm named smoothed proximal linear descent-ascent (smoothed PLDA), which can effectively handle a broad range of structured nonsmooth nonconvex-nonconcave minimax problems. Specifically, we consider the setting where the primal function has a nonsmooth composite structure and the dual function possesses the Kurdyka-\L{}ojasiewicz (K\L{}) property with exponent $\theta \in [0,1)$. We introduce a novel convergence analysis framework for smoothed PLDA, the key components of which are our newly developed nonsmooth primal error bound and dual error bound properties. Using this framework, we show that smoothed PLDA can find both $\epsilon$-game-stationary points and $\epsilon$-optimization-stationary points of the problems of interest in $\mathcal{O}(\epsilon^{-2\max\{2\theta,1\}})$ iterations. Furthermore, when $\theta \in [0,1/2]$, smoothed PLDA achieves the optimal iteration complexity of $\mathcal{O}(\epsilon^{-2})$. To further demonstrate the effectiveness and wide applicability of our analysis framework, we show that certain max-structure problem possesses the K\L{} property with exponent $\theta=0$ under mild assumptions. As a by-product, we establish algorithm-independent quantitative relationships among various stationarity concepts, which may be of independent interest.

arxiv情報

著者 Jiajin Li,Linglingzhi Zhu,Anthony Man-Cho So
発行日 2023-05-29 16:22:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク