要約
パラメトリック値関数を使用して値推定のモンテカルロ ロールアウトを置き換えることにより、アクター クリティカル (AC) アルゴリズムは確率的ポリシー勾配の分散を低減し、収束率を向上させることができます。
既存の研究は主にマルコフノイズの下でのACアルゴリズムの収束率の分析に焦点を当てていますが、ACアルゴリズムに対する運動量の影響はほとんど調査されていないままです。
この研究では、まず、ヘビー ボールの運動量を線形関数でパラメータ化されたクリティカル再帰に統合することにより、ヘビー ボールの運動量ベースのアドバンテージ アクター – クリティカル (\mbox{HB-A2C}) アルゴリズムを提案します。
サンプル軌道がマルコフ決定プロセスに従う場合、提案された HB-A2C アルゴリズムの加速能力が定量的に証明されます。
理論的な結果は、提案された HB-A2C がマルコフ ノイズを含む強化学習タスクに対して $\oo{\epsilon^{-2}}$ 反復で $\epsilon$ 近似静止点を見つけることを示しています。
さらに、学習率がサンプルの軌跡の長さに依存することも明らかにします。
提案された HB-A2C は、批判的再帰の運動量係数を慎重に選択することにより、初期化と確率的近似によって導入される誤差のバランスをとることができます。
要約(オリジナル)
By using an parametric value function to replace the Monte-Carlo rollouts for value estimation, the actor-critic (AC) algorithms can reduce the variance of stochastic policy gradient so that to improve the convergence rate. While existing works mainly focus on analyzing convergence rate of AC algorithms under Markovian noise, the impacts of momentum on AC algorithms remain largely unexplored. In this work, we first propose a heavy-ball momentum based advantage actor-critic (\mbox{HB-A2C}) algorithm by integrating the heavy-ball momentum into the critic recursion that is parameterized by a linear function. When the sample trajectory follows a Markov decision process, we quantitatively certify the acceleration capability of the proposed HB-A2C algorithm. Our theoretical results demonstrate that the proposed HB-A2C finds an $\epsilon$-approximate stationary point with $\oo{\epsilon^{-2}}$ iterations for reinforcement learning tasks with Markovian noise. Moreover, we also reveal the dependence of learning rates on the length of the sample trajectory. By carefully selecting the momentum factor of the critic recursion, the proposed HB-A2C can balance the errors introduced by the initialization and the stoschastic approximation.
arxiv情報
著者 | Yanjie Dong,Haijun Zhang,Gang Wang,Shisheng Cui,Xiping Hu |
発行日 | 2024-08-13 15:03:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google