Taming Nonconvex Stochastic Mirror Descent with General Bregman Divergence

要約

このペーパーでは、現代の非凸最適化設定における確率的ミラー降下法 (SMD) の収束を再検討します。
バッチフリー非凸 SMD の既存の結果では、距離生成関数 (DGF) の選択がリプシッツ連続勾配で微分可能に制限されており、それによりシャノン エントロピーなどの重要な設定が除外されています。
この研究では、上記の制限を克服し、標準的な仮定のみに依存する、一般的な DGF をサポートする非凸 SMD の新しい収束解析を紹介します。
さらに、我々の収束はブレグマン前方後方エンベロープに関して確立されており、これは勾配マッピングの一般的に使用される二乗ノルムよりも強力な尺度です。
結果をさらに拡張して、サブガウスノイズ下での高確率収束と、一般化されたブレグマン近接ポリャク-{\L}オジャシェヴィッツ条件下でのグローバル収束を保証します。
さらに、非滑らかな DGF を利用することで、さまざまな非凸機械学習タスクにおける改良された SMD 理論の利点を示します。
特に、非凸差分プライベート (DP) 学習のコンテキストでは、私たちの理論は、(ほぼ) 次元に依存しない効用限界を持つ単純なアルゴリズムを生成します。
線形ニューラル ネットワークのトレーニングの問題に対して、証明可能な収束確率アルゴリズムを開発します。

要約(オリジナル)

This paper revisits the convergence of Stochastic Mirror Descent (SMD) in the contemporary nonconvex optimization setting. Existing results for batch-free nonconvex SMD restrict the choice of the distance generating function (DGF) to be differentiable with Lipschitz continuous gradients, thereby excluding important setups such as Shannon entropy. In this work, we present a new convergence analysis of nonconvex SMD supporting general DGF, that overcomes the above limitations and relies solely on the standard assumptions. Moreover, our convergence is established with respect to the Bregman Forward-Backward envelope, which is a stronger measure than the commonly used squared norm of gradient mapping. We further extend our results to guarantee high probability convergence under sub-Gaussian noise and global convergence under the generalized Bregman Proximal Polyak-{\L}ojasiewicz condition. Additionally, we illustrate the advantages of our improved SMD theory in various nonconvex machine learning tasks by harnessing nonsmooth DGFs. Notably, in the context of nonconvex differentially private (DP) learning, our theory yields a simple algorithm with a (nearly) dimension-independent utility bound. For the problem of training linear neural networks, we develop provably convergent stochastic algorithms.

arxiv情報

著者 Ilyas Fatkhullin,Niao He
発行日 2024-02-27 17:56:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 90C15, 90C26, cs.LG, G.1.6, math.OC パーマリンク