Near-Optimal Fully First-Order Algorithms for Finding Stationary Points in Bilevel Optimization

要約

バイレベル最適化には、ハイパーパラメータ最適化やメタ学習などのさまざまな用途があります。
2 レベル最適化の理論的に効率的なアルゴリズムを設計することは、標準的な最適化よりも困難です。これは、下位レベルの問題が別の最適化問題によって暗黙的に実現可能性セットを定義するためです。
扱いやすいケースの 1 つは、低レベルの問題によって強い凸性が許容される場合です。
最近の研究では、二次法が $\tilde{\mathcal{O}}(\epsilon^{-2})$ の速度で問題の $\epsilon$-1 次定常点に収束する可能性があることが示されています。
ただし、これらのアルゴリズムにはヘシアンベクトル積オラクルが必要です。
クォンら。
(2023) は、$\tilde{\mathcal{O}}(\epsilon^{-3})$ という遅いレートで同じ目標を達成できる一次手法を提案することで問題を解決しました。
この研究では、一次法でも $\tilde {\mathcal{O}}(\epsilon^{-2}) 内で $\epsilon$-一次定常点を見つけることができることを示す改良された解析を提供します。
$ oracle の複雑さ。これは、$\epsilon$ への依存関係における 2 階メソッドの上限と一致します。
さらに、我々の分析は、二次静止点の発見や分散二値問題において同様の最適に近いレートを達成できる単純な一次アルゴリズムにつながります。

要約(オリジナル)

Bilevel optimization has various applications such as hyper-parameter optimization and meta-learning. Designing theoretically efficient algorithms for bilevel optimization is more challenging than standard optimization because the lower-level problem defines the feasibility set implicitly via another optimization problem. One tractable case is when the lower-level problem permits strong convexity. Recent works show that second-order methods can provably converge to an $\epsilon$-first-order stationary point of the problem at a rate of $\tilde{\mathcal{O}}(\epsilon^{-2})$, yet these algorithms require a Hessian-vector product oracle. Kwon et al. (2023) resolved the problem by proposing a first-order method that can achieve the same goal at a slower rate of $\tilde{\mathcal{O}}(\epsilon^{-3})$. In this work, we provide an improved analysis demonstrating that the first-order method can also find an $\epsilon$-first-order stationary point within $\tilde {\mathcal{O}}(\epsilon^{-2})$ oracle complexity, which matches the upper bounds for second-order methods in the dependency on $\epsilon$. Our analysis further leads to simple first-order algorithms that can achieve similar near-optimal rates in finding second-order stationary points and in distributed bilevel problems.

arxiv情報

著者 Lesi Chen,Yaohua Ma,Jingzhao Zhang
発行日 2023-06-26 17:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク