要約
近年、深層強化学習においてさまざまな強力なポリシー勾配アルゴリズムが提案されています。
これらすべてのアルゴリズムはポリシー勾配定理に基づいて構築されていますが、具体的な設計上の選択はアルゴリズムによって大きく異なります。
オンポリシー ポリシー勾配アルゴリズムの全体的な概要を提供し、その理論的基礎と実際の実装の両方の理解を促進します。
この概要には、ポリシー勾配定理の連続バージョンの詳細な証明、収束結果、および実用的なアルゴリズムの包括的な議論が含まれています。
連続制御環境で最も著名なアルゴリズムを比較し、正則化の利点についての洞察を提供します。
すべてのコードは https://github.com/Matt00n/PolicyGradientsJax で入手できます。
要約(オリジナル)
In recent years, various powerful policy gradient algorithms have been proposed in deep reinforcement learning. While all these algorithms build on the Policy Gradient Theorem, the specific design choices differ significantly across algorithms. We provide a holistic overview of on-policy policy gradient algorithms to facilitate the understanding of both their theoretical foundations and their practical implementations. In this overview, we include a detailed proof of the continuous version of the Policy Gradient Theorem, convergence results and a comprehensive discussion of practical algorithms. We compare the most prominent algorithms on continuous control environments and provide insights on the benefits of regularization. All code is available at https://github.com/Matt00n/PolicyGradientsJax.
arxiv情報
著者 | Matthias Lehmann |
発行日 | 2024-01-24 18:56:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google