Non-asymptotic convergence analysis of the stochastic gradient Hamiltonian Monte Carlo algorithm with discontinuous stochastic gradient with applications to training of ReLU neural networks

要約

この論文では、確率的勾配ハミルトニアン モンテカルロ (SGHMC) アルゴリズムの、Wasserstein-1 および Wasserstein-2 距離における目標測定値への収束の非漸近解析を提供します。
重要なのは、SGHMC に関する既存の文献と比較して、その確率的勾配が不連続であることを許容していることです。
これにより、ReLU 活性化関数を使用したニューラル ネットワークのトレーニングなど、不連続な確率的勾配を伴う非凸の確率的最適化問題の予想される超過リスクに対して、任意に小さく制御できる明示的な上限を提供することができます。
私たちの主な結果の適用可能性を説明するために、分位点推定に関する数値実験と、金融と人工知能に関連する ReLU ニューラル ネットワークに関連するいくつかの最適化問題について検討します。

要約(オリジナル)

In this paper, we provide a non-asymptotic analysis of the convergence of the stochastic gradient Hamiltonian Monte Carlo (SGHMC) algorithm to a target measure in Wasserstein-1 and Wasserstein-2 distance. Crucially, compared to the existing literature on SGHMC, we allow its stochastic gradient to be discontinuous. This allows us to provide explicit upper bounds, which can be controlled to be arbitrarily small, for the expected excess risk of non-convex stochastic optimization problems with discontinuous stochastic gradients, including, among others, the training of neural networks with ReLU activation function. To illustrate the applicability of our main results, we consider numerical experiments on quantile estimation and on several optimization problems involving ReLU neural networks relevant in finance and artificial intelligence.

arxiv情報

著者 Luxu Liang,Ariel Neufeld,Ying Zhang
発行日 2024-09-25 17:21:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA, math.OC, math.PR, stat.ML パーマリンク