要約
タイトル:確率制約強化学習の方策勾配
要約:
– この論文は、強化学習(RL)のコンテキストで安全なポリシーを学習する問題について考察している。
– 特に、確率的安全性の概念に注目している。つまり、システムの状態を高い確率で安全なセットに保つポリシーを設計することを目指している。
– この概念は、文献でしばしば考慮される累積制約とは異なる。
– 確率的安全性を扱う難しさは、その勾配の式がないことにある。実際、ポリシー最適化アルゴリズムは、目的関数と制約の勾配に頼っている。
– 私たちの知る限り、本研究は確率制約の明示的な勾配式を提供する最初のものである。このファミリーの制約の勾配は、様々なポリシーベースのアルゴリズムに適用できる。
– 実証実験で、確率制約を連続なナビゲーション問題で扱えることを示した。
要約(オリジナル)
This paper considers the problem of learning safe policies in the context of reinforcement learning (RL). In particular, we consider the notion of probabilistic safety. This is, we aim to design policies that maintain the state of the system in a safe set with high probability. This notion differs from cumulative constraints often considered in the literature. The challenge of working with probabilistic safety is the lack of expressions for their gradients. Indeed, policy optimization algorithms rely on gradients of the objective function and the constraints. To the best of our knowledge, this work is the first one providing such explicit gradient expressions for probabilistic constraints. It is worth noting that the gradient of this family of constraints can be applied to various policy-based algorithms. We demonstrate empirically that it is possible to handle probabilistic constraints in a continuous navigation problem.
arxiv情報
著者 | Weiqin Chen,Dharmashankar Subramanian,Santiago Paternain |
発行日 | 2023-04-18 20:54:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI