Non-asymptotic estimates for TUSLA algorithm for non-convex learning with applications to neural networks with ReLU activation function

要約

タイトル:ReLU活性化関数を持つニューラルネットワークに応用した非凸学習のTUSLAアルゴリズムに関する非漸近的推定

要約:

– 目的:超線形成長と不連続な確率的勾配を持つ目的関数を持つ非凸確率的最適化問題において、TUSLAアルゴリズムに対して非漸近的分析を提供すること。
– 結果:Wasserstein-1およびWasserstein-2距離において、TUSLAアルゴリズムに対する非漸近的誤差バウンドを確立することにより、期待余剰リスクの非漸近的推定を導出できる。さらに、ReLUニューラルネットワークを用いた転移学習の例を考慮し、TUSLAアルゴリズムが最適化問題を解決できることを理論的にも数値的にも実証する。また、人気のあるアルゴリズムであるADAM、AMSGrad、RMSProp、および確率的勾配降下法(SGD)アルゴリズムによる最適化問題の最小化点を見つけることができないシミュレーション結果を提供する。
– 結論:TUSLAアルゴリズムは、ReLU活性化関数を持つニューラルネットワークに応用することができ、確率的勾配の超線形成長と不連続性に対しても高速かつ効果的に最適化問題を解決できることが示された。

要約(オリジナル)

We consider non-convex stochastic optimization problems where the objective functions have super-linearly growing and discontinuous stochastic gradients. In such a setting, we provide a non-asymptotic analysis for the tamed unadjusted stochastic Langevin algorithm (TUSLA) introduced in Lovas et al. (2020). In particular, we establish non-asymptotic error bounds for the TUSLA algorithm in Wasserstein-1 and Wasserstein-2 distances. The latter result enables us to further derive non-asymptotic estimates for the expected excess risk. To illustrate the applicability of the main results, we consider an example from transfer learning with ReLU neural networks, which represents a key paradigm in machine learning. Numerical experiments are presented for the aforementioned example which support our theoretical findings. Hence, in this setting, we demonstrate both theoretically and numerically that the TUSLA algorithm can solve the optimization problem involving neural networks with ReLU activation function. Besides, we provide simulation results for synthetic examples where popular algorithms, e.g. ADAM, AMSGrad, RMSProp, and (vanilla) stochastic gradient descent (SGD) algorithm, may fail to find the minimizer of the objective functions due to the super-linear growth and the discontinuity of the corresponding stochastic gradient, while the TUSLA algorithm converges rapidly to the optimal solution. Moreover, we provide an empirical comparison of the performance of TUSLA with popular stochastic optimizers on real-world datasets, as well as investigate the effect of the key hyperparameters of TUSLA on its performance.

arxiv情報

著者 Dong-Young Lim,Ariel Neufeld,Sotirios Sabanis,Ying Zhang
発行日 2023-05-02 15:45:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.NA, math.NA, math.OC, math.PR, stat.ML パーマリンク