On the Convergence Rate of the Stochastic Gradient Descent (SGD) and application to a modified policy gradient for the Multi Armed Bandit

要約

学習率が逆時間減衰スケジュールに従う場合の確率的勾配降下法 (SGD) の収束率の自己完結型の証明を示します。
次に、その結​​果を $L2$ 正則化を使用した修正形式のポリシー勾配 Multi-Armed Bandit (MAB) の収束に適用します。

要約(オリジナル)

We present a self-contained proof of the convergence rate of the Stochastic Gradient Descent (SGD) when the learning rate follows an inverse time decays schedule; we next apply the results to the convergence of a modified form of policy gradient Multi-Armed Bandit (MAB) with $L2$ regularization.

arxiv情報

著者 Stefana Anita,Gabriel Turinici
発行日 2024-02-09 13:10:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS, cs.LG, cs.NA, math.NA, stat.ML パーマリンク