要約
時間差分 (TD) 学習は、分散削減手法によってパフォーマンスを向上できる強化学習におけるポリシー評価です。
最近、複数の研究が、TD 学習と確率的分散減少勾配 (SVRG) 法を融合して、幾何学的収束率を達成することを目指しています。
ただし、結果として得られる収束率は、凸最適化の設定で SVRG によって達成される収束率よりも大幅に低くなります。
この研究では、適切に選択された関数の勾配の分割としての TD 学習の最近の解釈を利用し、アルゴリズムを簡素化し、TD と SVRG を融合します。
私たちの主な結果は、$1/8$ の所定の学習率を持つ幾何学的収束限界です。これは、凸設定の SVRG で利用可能な収束限界と同じです。
私たちの理論的発見は一連の実験によって裏付けられています。
要約(オリジナル)
Temporal difference (TD) learning is a policy evaluation in reinforcement learning whose performance can be enhanced by variance reduction methods. Recently, multiple works have sought to fuse TD learning with Stochastic Variance Reduced Gradient (SVRG) method to achieve a geometric rate of convergence. However, the resulting convergence rate is significantly weaker than what is achieved by SVRG in the setting of convex optimization. In this work we utilize a recent interpretation of TD-learning as the splitting of the gradient of an appropriately chosen function, thus simplifying the algorithm and fusing TD with SVRG. Our main result is a geometric convergence bound with predetermined learning rate of $1/8$, which is identical to the convergence bound available for SVRG in the convex setting. Our theoretical findings are supported by a set of experiments.
arxiv情報
著者 | Arsenii Mustafin,Alex Olshevsky,Ioannis Ch. Paschalidis |
発行日 | 2024-08-06 10:51:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google