The Definitive Guide to Policy Gradients in Deep Reinforcement Learning: Theory, Algorithms and Implementations

要約

近年、深層強化学習において様々な強力な政策勾配アルゴリズムが提案されている。これらのアルゴリズムは全て政策勾配の定理を基礎としているが、具体的な設計の選択はアルゴリズムによって大きく異なる。本論文では、オンポリシーポリシー勾配アルゴリズムの全体的な概観を提供し、それらの理論的基礎と実用的実装の両方の理解を容易にする。この概要には、連続版政策勾配定理の詳細な証明、収束結果、実用的アルゴリズムの包括的な議論を含む。連続制御環境における最も著名なアルゴリズムを比較し、正則化の利点に関する洞察を提供する。全てのコードはhttps://github.com/Matt00n/PolicyGradientsJax。

要約(オリジナル)

In recent years, various powerful policy gradient algorithms have been proposed in deep reinforcement learning. While all these algorithms build on the Policy Gradient Theorem, the specific design choices differ significantly across algorithms. We provide a holistic overview of on-policy policy gradient algorithms to facilitate the understanding of both their theoretical foundations and their practical implementations. In this overview, we include a detailed proof of the continuous version of the Policy Gradient Theorem, convergence results and a comprehensive discussion of practical algorithms. We compare the most prominent algorithms on continuous control environments and provide insights on the benefits of regularization. All code is available at https://github.com/Matt00n/PolicyGradientsJax.

arxiv情報

著者 Matthias Lehmann
発行日 2024-03-01 08:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク