要約
適応ステップを使用した確率勾配降下(SGD)は、深いニューラルネットワークと生成モデルを訓練するために広く使用されています。
ほとんどの理論的結果は、モンテカルロ法を使用するいくつかの最近の深い学習および強化学習アプリケーションには当てはまらない偏見のない勾配推定器を取得することが可能であると想定しています。
このペーパーでは、偏った勾配を備えたSGDの包括的な非アサイスプチック分析と、非凸滑らかな機能のための適応ステップを提供します。
私たちの研究には、時間依存のバイアスが組み込まれており、勾配推定器のバイアスを制御することの重要性を強調しています。
特に、Adagrad、RMSProp、およびAmsgradは、偏りのある勾配を持つAdamの指数関数的な移動平均バリアントであるAmsgradが、偏りのないケースの既存の結果と同様の速度で滑らかな非凸関数の重要なポイントに収束することを確立します。
最後に、変分自動エンコンダー(VAE)を使用して実験結果を提供し、収束結果を示すいくつかの学習フレームワークへのアプリケーションを提供し、適切なハイパーパラメーターチューニングによってバイアスの効果をどのように減らすことができるかを示します。
要約(オリジナル)
Stochastic Gradient Descent (SGD) with adaptive steps is widely used to train deep neural networks and generative models. Most theoretical results assume that it is possible to obtain unbiased gradient estimators, which is not the case in several recent deep learning and reinforcement learning applications that use Monte Carlo methods. This paper provides a comprehensive non-asymptotic analysis of SGD with biased gradients and adaptive steps for non-convex smooth functions. Our study incorporates time-dependent bias and emphasizes the importance of controlling the bias of the gradient estimator. In particular, we establish that Adagrad, RMSProp, and AMSGRAD, an exponential moving average variant of Adam, with biased gradients, converge to critical points for smooth non-convex functions at a rate similar to existing results in the literature for the unbiased case. Finally, we provide experimental results using Variational Autoenconders (VAE) and applications to several learning frameworks that illustrate our convergence results and show how the effect of bias can be reduced by appropriate hyperparameter tuning.
arxiv情報
著者 | Sobihan Surendran,Antoine Godichon-Baggioni,Adeline Fermanian,Sylvain Le Corff |
発行日 | 2025-03-14 16:27:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google