Bilevel Learning with Inexact Stochastic Gradients

要約

バイレベル学習は、機械学習、逆問題、およびハイパーパラメータの最適化、学習データ適応正則化、前方演算子の最適化などのイメージング アプリケーションで注目を集めています。
これらの問題の大規模な性質により、不正確で計算効率の悪い手法の開発が行われてきました。
既存の適応手法は主に決定論的定式化に依存していますが、確率的アプローチでは多くの場合、非現実的な分散仮定を伴う二重確率的フレームワークが採用され、固定回数の下位レベルの反復が強制され、広範な調整が必要になります。
この研究では、強い凸の下位レベルの問題と上位レベルの非凸関数和を使用した 2 レベル学習に焦点を当てます。
確率性は上位レベルでのデータ サンプリングから発生し、不正確な確率的超勾配を引き起こします。
我々は、非凸目的のための最先端の確率的最適化理論とそれらの関係を確立します。
さらに、穏やかな仮定の下で不正確な確率的二値最適化の収束を証明します。
私たちの経験的結果は、適応的決定論的バイレベル法と比較して、画像のノイズ除去やブレ除去などのイメージングタスクにおける大幅な高速化と一般化の向上を強調しています。

要約(オリジナル)

Bilevel learning has gained prominence in machine learning, inverse problems, and imaging applications, including hyperparameter optimization, learning data-adaptive regularizers, and optimizing forward operators. The large-scale nature of these problems has led to the development of inexact and computationally efficient methods. Existing adaptive methods predominantly rely on deterministic formulations, while stochastic approaches often adopt a doubly-stochastic framework with impractical variance assumptions, enforces a fixed number of lower-level iterations, and requires extensive tuning. In this work, we focus on bilevel learning with strongly convex lower-level problems and a nonconvex sum-of-functions in the upper-level. Stochasticity arises from data sampling in the upper-level which leads to inexact stochastic hypergradients. We establish their connection to state-of-the-art stochastic optimization theory for nonconvex objectives. Furthermore, we prove the convergence of inexact stochastic bilevel optimization under mild assumptions. Our empirical results highlight significant speed-ups and improved generalization in imaging tasks such as image denoising and deblurring in comparison with adaptive deterministic bilevel methods.

arxiv情報

著者 Mohammad Sadegh Salehi,Subhadip Mukherjee,Lindon Roberts,Matthias J. Ehrhardt
発行日 2024-12-16 18:18:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク