Learning Optimal Deterministic Policies with Stochastic Policy Gradients

要約

政策勾配(PG)法は、連続的な強化学習(RL)問題を扱うための成功したアプローチである。PG法は、行動空間またはパラメータ空間を探索することにより、確率的なパラメトリック(ハイパー)ポリシーを学習する。しかし、ストキャスティック・コントローラは、ロバスト性、安全性、トレーサビリティに欠けるため、実用的な観点からは望ましくないことが多い。一般に、確率的(ハイパー)ポリシーは、決定論的バージョンを展開するためだけに学習される。本稿では、この実践の理論的理解に向けた一歩を踏み出す。このシナリオをモデル化するための新しいフレームワークを導入した後、(弱い)勾配支配の仮定の下で、最良の決定論的政策への大域的収束を研究する。次に、サンプルの複雑さと展開された決定論的ポリシーの性能のトレードオフを最適化するために、学習に用いる探索レベルを調整する方法を説明する。最後に、アクションベースとパラメータベースの探索を定量的に比較し、直感的な結果を形式的に表現する。

要約(オリジナル)

Policy gradient (PG) methods are successful approaches to deal with continuous reinforcement learning (RL) problems. They learn stochastic parametric (hyper)policies by either exploring in the space of actions or in the space of parameters. Stochastic controllers, however, are often undesirable from a practical perspective because of their lack of robustness, safety, and traceability. In common practice, stochastic (hyper)policies are learned only to deploy their deterministic version. In this paper, we make a step towards the theoretical understanding of this practice. After introducing a novel framework for modeling this scenario, we study the global convergence to the best deterministic policy, under (weak) gradient domination assumptions. Then, we illustrate how to tune the exploration level used for learning to optimize the trade-off between the sample complexity and the performance of the deployed deterministic policy. Finally, we quantitatively compare action-based and parameter-based exploration, giving a formal guise to intuitive results.

arxiv情報

著者 Alessandro Montenegro,Marco Mussi,Alberto Maria Metelli,Matteo Papini
発行日 2024-05-03 16:45:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク