要約
学習率が逆時間減衰スケジュールに従う場合の確率的勾配降下法 (SGD) の収束率の自己完結型の証明を示します。
次に、その結果を $L2$ 正則化を使用した修正形式のポリシー勾配 Multi-Armed Bandit (MAB) の収束に適用します。
要約(オリジナル)
We present a self-contained proof of the convergence rate of the Stochastic Gradient Descent (SGD) when the learning rate follows an inverse time decays schedule; we next apply the results to the convergence of a modified form of policy gradient Multi-Armed Bandit (MAB) with $L2$ regularization.
arxiv情報
著者 | Stefana Anita,Gabriel Turinici |
発行日 | 2024-02-09 13:10:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google