On Stability and Generalization of Bilevel Optimization Problem

要約

(確率的) 2 値最適化は、メタ学習、ハイパーパラメーター最適化、強化学習などの幅広いアプリケーションを使用した機械学習で頻繁に発生する問題です。
この問題に関する既存の研究のほとんどは、収束の分析または収束率の改善にのみ焦点を当てており、その汎化動作を理解するための努力はほとんど行われていません。
この論文では、2 値最適化問題に対する 1 次 (勾配ベース) 法の一般化について徹底的な分析を行います。
最初に、アルゴリズムの安定性とさまざまな形式の一般化エラーとの間の基本的な接続を確立し、以前の最良のものを $\bigO(\sqrt{n})$ から $\bigO(\log n)$ に改善する高確率の一般化限界を与えます。
ここで、$n$ はサンプル サイズです。
次に、内部および外部レベル パラメータの両方が継続的に更新される一般的なケースの最初の安定限界を提供しますが、既存の作業では外部レベル パラメータのみを更新できます。
当社の分析は、強凸強凸 (SC-SC)、凸凸 (C-C)、非凸非凸 (NC-NC) など、さまざまな標準設定に適用できます。
NC-NC設定の分析は、実際に一般的に遭遇する特定の非凸-強凸(NC-SC)設定にも拡張できます。
最後に、理論的分析を裏付け、メタ学習とハイパーパラメーター最適化に関する実験により、反復が一般化エラーにどのように影響するかを示します。

要約(オリジナル)

(Stochastic) bilevel optimization is a frequently encountered problem in machine learning with a wide range of applications such as meta-learning, hyper-parameter optimization, and reinforcement learning. Most of the existing studies on this problem only focused on analyzing the convergence or improving the convergence rate, while little effort has been devoted to understanding its generalization behaviors. In this paper, we conduct a thorough analysis on the generalization of first-order (gradient-based) methods for the bilevel optimization problem. We first establish a fundamental connection between algorithmic stability and generalization error in different forms and give a high probability generalization bound which improves the previous best one from $\bigO(\sqrt{n})$ to $\bigO(\log n)$, where $n$ is the sample size. We then provide the first stability bounds for the general case where both inner and outer level parameters are subject to continuous update, while existing work allows only the outer level parameter to be updated. Our analysis can be applied in various standard settings such as strongly-convex-strongly-convex (SC-SC), convex-convex (C-C), and nonconvex-nonconvex (NC-NC). Our analysis for the NC-NC setting can also be extended to a particular nonconvex-strongly-convex (NC-SC) setting that is commonly encountered in practice. Finally, we corroborate our theoretical analysis and demonstrate how iterations can affect the generalization error by experiments on meta-learning and hyper-parameter optimization.

arxiv情報

著者 Meng Ding,Mingxi Lei,Yunwen Lei,Di Wang,Jinhui Xu
発行日 2023-03-15 16:06:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク