TRC: Trust Region Conditional Value at Risk for Safe Reinforcement Learning

要約

ロボット工学では安全性が最重要視されるため、安全RLと呼ばれる安全性を反映した強化学習が盛んに研究されている。安全RLでは,定義された安全制約を満たしながら,所望の見返りを最大化するような方針を見つけることを目指す.制約には様々な種類があるが,その中でも条件付き危険値制約(CVaR: conditional value at risk)は,CVaRがあるパーセンタイル以上で得られる条件付き期待値であるため,高コストによる失敗確率を効果的に下げることができる.本論文では、TRCと呼ばれるCVaR制約を持つ信頼領域ベースの安全RL手法を提案する。まずCVaRの上界を導出し、その上界を信頼領域において微分可能な形で近似する。この近似を用いて、ポリシーの勾配を求める部分問題が定式化され、その部分問題を繰り返し解くことによってポリシーが学習される。TRCは、様々なロボットを用いたシミュレーションと、Clearpath社のJackalロボットを用いたsim-to-real環境における安全なナビゲーションタスクにより評価される。他の安全なRL手法と比較すると、全ての実験において制約を満足しながら性能が1.93倍向上している。

要約(オリジナル)

As safety is of paramount importance in robotics, reinforcement learning that reflects safety, called safe RL, has been studied extensively. In safe RL, we aim to find a policy which maximizes the desired return while satisfying the defined safety constraints. There are various types of constraints, among which constraints on conditional value at risk (CVaR) effectively lower the probability of failures caused by high costs since CVaR is a conditional expectation obtained above a certain percentile. In this paper, we propose a trust region-based safe RL method with CVaR constraints, called TRC. We first derive the upper bound on CVaR and then approximate the upper bound in a differentiable form in a trust region. Using this approximation, a subproblem to get policy gradients is formulated, and policies are trained by iteratively solving the subproblem. TRC is evaluated through safe navigation tasks in simulations with various robots and a sim-to-real environment with a Jackal robot from Clearpath. Compared to other safe RL methods, the performance is improved by 1.93 times while the constraints are satisfied in all experiments.

arxiv情報

著者 Dohyeong Kim,Songhwai Oh
発行日 2023-12-01 04:40:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO パーマリンク