Policy Optimization for Continuous Reinforcement Learning

要約

私たちは、連続した時間と空間の設定で、割引された目的と確率的微分方程式によって駆動される基礎となるダイナミクスを備えた無限の地平線に対する強化学習 (RL) を研究します。
RL への継続的アプローチの最近の進歩に基づいて、占有時間の概念 (特に割引された目標の場合) を開発し、それを効果的に使用してパフォーマンスの差と局所近似公式を導き出す方法を示します。
これらの結果をさらに拡張して、PG (ポリシー勾配) および TRPO/PPO (信頼領域ポリシー最適化/近接ポリシー最適化) 手法でのアプリケーションを説明します。これらの手法は、離散 RL 設定では馴染みのある強力なツールですが、連続 RL 設定では開発が不十分です。
RL。
数値実験を通じて、私たちのアプローチの有効性と利点を実証します。

要約(オリジナル)

We study reinforcement learning (RL) in the setting of continuous time and space, for an infinite horizon with a discounted objective and the underlying dynamics driven by a stochastic differential equation. Built upon recent advances in the continuous approach to RL, we develop a notion of occupation time (specifically for a discounted objective), and show how it can be effectively used to derive performance-difference and local-approximation formulas. We further extend these results to illustrate their applications in the PG (policy gradient) and TRPO/PPO (trust region policy optimization/ proximal policy optimization) methods, which have been familiar and powerful tools in the discrete RL setting but under-developed in continuous RL. Through numerical experiments, we demonstrate the effectiveness and advantages of our approach.

arxiv情報

著者 Hanyang Zhao,Wenpin Tang,David D. Yao
発行日 2023-10-18 14:38:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク