On Finding Small Hyper-Gradients in Bilevel Optimization: Hardness Results and Improved Analysis

要約

バイレベル最適化は、ハイパーパラメータ調整、ニューラル アーキテクチャ検索、メタ学習など、斜めの最適化問題の内部構造を明らかにします。
2 レベル最適化の共通の目標は、下位レベルの関数の解セットに暗黙的に依存する超目的を最小化することです。
この超客観的アプローチは広く使用されていますが、低レベル関数に強い凸性がない場合の理論的特性は十分に調査されていません。
この研究では、まず硬度の結果を提供して、非凸-凸バイレベル最適化の超目的の静止点を見つけるという目標が、ゼロ尊重アルゴリズムでは困難である可能性があることを示します。
次に、低レベル関数が Polyak-{\L}ojasiewicz (PL) 条件を満たす場合の扱いやすい非凸-非凸 2 レベル問題のクラスを研究します。
単純な 1 次アルゴリズムが $\tilde{\mathcal{O}}(\epsilon^{-2})$, $\tilde{\mathcal{O}}(\epsilon^{
-4})$ と $\tilde{\mathcal{O}}(\epsilon^{-6})$ は、それぞれ決定論的、部分確率的、完全確率的設定で使用されます。

要約(オリジナル)

Bilevel optimization reveals the inner structure of otherwise oblique optimization problems, such as hyperparameter tuning, neural architecture search, and meta-learning. A common goal in bilevel optimization is to minimize a hyper-objective that implicitly depends on the solution set of the lower-level function. Although this hyper-objective approach is widely used, its theoretical properties have not been thoroughly investigated in cases where the lower-level functions lack strong convexity. In this work, we first provide hardness results to show that the goal of finding stationary points of the hyper-objective for nonconvex-convex bilevel optimization can be intractable for zero-respecting algorithms. Then we study a class of tractable nonconvex-nonconvex bilevel problems when the lower-level function satisfies the Polyak-{\L}ojasiewicz (PL) condition. We show a simple first-order algorithm can achieve better complexity bounds of $\tilde{\mathcal{O}}(\epsilon^{-2})$, $\tilde{\mathcal{O}}(\epsilon^{-4})$ and $\tilde{\mathcal{O}}(\epsilon^{-6})$ in the deterministic, partially stochastic, and fully stochastic setting respectively.

arxiv情報

著者 Lesi Chen,Jing Xu,Jingzhao Zhang
発行日 2024-05-14 10:32:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク