Closing the gap between SVRG and TD-SVRG with Gradient Splitting

要約

時間差分 (TD) 学習は、分散低減技術によってパフォーマンスを向上できる強化学習におけるポリシー評価です。
最近、複数の研究が、TD 学習と SVRG を融合して、幾何学的収束率を備えたポリシー評価方法を取得しようとしています。
ただし、結果として得られる収束率は、凸最適化の設定で SVRG によって達成される収束率よりも大幅に低くなります。
この研究では、適切に選択された関数の勾配の分割としての TD 学習の最近の解釈を利用し、アルゴリズムを簡素化し、TD と SVRG を融合します。
私たちの主な結果は、$1/8$ の所定の学習率を持つ幾何学的収束限界です。これは、凸設定の SVRG で利用可能な収束限界と同じです。
私たちの理論的発見は一連の実験によって裏付けられています。

要約(オリジナル)

Temporal difference (TD) learning is a policy evaluation in reinforcement learning whose performance can be enhanced by variance reduction techniques. Recently, multiple works have sought to fuse TD learning with SVRG to obtain a policy evaluation method with a geometric rate of convergence. However, the resulting convergence rate is significantly weaker than what is achieved by SVRG in the setting of convex optimization. In this work we utilize a recent interpretation of TD-learning as the splitting of the gradient of an appropriately chosen function, thus simplifying the algorithm and fusing TD with SVRG. Our main result is a geometric convergence bound with predetermined learning rate of $1/8$, which is identical to the convergence bound available for SVRG in the convex setting. Our theoretical findings are supported by a set of experiments.

arxiv情報

著者 Arsenii Mustafin,Alex Olshevsky,Ioannis Ch. Paschalidis
発行日 2023-07-12 15:03:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク