On Momentum-Based Gradient Methods for Bilevel Optimization with Nonconvex Lower-Level

要約

バイレベル最適化は、ハイパーパラメータ学習、メタ学習、継続的学習などの多くの機械学習タスクに広く適用されている、一般的な 2 レベル階層最適化です。
近年、多くのバイレベル最適化手法が開発されていますが、下位レベルの問題が非凸である場合、バイレベル手法は十分に研究されていません。
このギャップを埋めるために、この論文では、上位レベルと下位レベルの問題の両方が非凸であり、下位レベルの問題が Polyak-Lojasiewicz (PL) 条件を満たす非凸 2 レベル最適化問題のクラスを研究します。
これらの決定論的問題を解決するために、効率的な運動量ベースの勾配バイレベル法 (MGBiO) を提案します。
一方、これらの確率的問題を解決するために、効率的な運動量ベースの確率的勾配バイレベル法 (MSGBiO および VR-MSGBiO) のクラスを提案します。
さらに、メソッドに便利な収束解析フレームワークを提供します。
具体的には、いくつかの穏やかな条件下で、決定論的なバイレベル問題の $\epsilon$-定常解を見つけるために、MGBiO メソッドが $O(\epsilon^{-2})$ のサンプル (または勾配) の複雑さを持っていることを証明します (
すなわち、$\|\nabla F(x)\|\leq \epsilon$) であり、既存の最良の結果を $O(\epsilon^{-1})$ 倍改善します。
その間、MSGBiO と VR-MSGBiO メソッドが $\tilde{O}(\epsilon^{-4})$ と $\tilde{O}(\epsilon^{-3})$ のサンプルの複雑さを持つことを証明します。
それぞれ、確率的バイレベル問題の $\epsilon$-定常解 (つまり、$\mathbb{E}\|\nabla F(x)\|\leq \epsilon$) を見つける際に、既存の最良の結果を次のように改善します。
$O(\epsilon^{-3})$ の因数。
この原稿は、数学者のボリス ポリアック (1935 ~ 2023 年) を記念しています。

要約(オリジナル)

Bilevel optimization is a popular two-level hierarchical optimization, which has been widely applied to many machine learning tasks such as hyperparameter learning, meta learning and continual learning. Although many bilevel optimization methods recently have been developed, the bilevel methods are not well studied when the lower-level problem is nonconvex. To fill this gap, in the paper, we study a class of nonconvex bilevel optimization problems, which both upper-level and lower-level problems are nonconvex, and the lower-level problem satisfies Polyak-Lojasiewicz (PL) condition. We propose an efficient momentum-based gradient bilevel method (MGBiO) to solve these deterministic problems. Meanwhile, we propose a class of efficient momentum-based stochastic gradient bilevel methods (MSGBiO and VR-MSGBiO) to solve these stochastic problems. Moreover, we provide a useful convergence analysis framework for our methods. Specifically, under some mild conditions, we prove that our MGBiO method has a sample (or gradient) complexity of $O(\epsilon^{-2})$ for finding an $\epsilon$-stationary solution of the deterministic bilevel problems (i.e., $\|\nabla F(x)\|\leq \epsilon$), which improves the existing best results by a factor of $O(\epsilon^{-1})$. Meanwhile, we prove that our MSGBiO and VR-MSGBiO methods have sample complexities of $\tilde{O}(\epsilon^{-4})$ and $\tilde{O}(\epsilon^{-3})$, respectively, in finding an $\epsilon$-stationary solution of the stochastic bilevel problems (i.e., $\mathbb{E}\|\nabla F(x)\|\leq \epsilon$), which improves the existing best results by a factor of $O(\epsilon^{-3})$. This manuscript commemorates the mathematician Boris Polyak (1935 -2023).

arxiv情報

著者 Feihu Huang
発行日 2023-03-07 14:55:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA, math.OC パーマリンク