要約
逐次決定問題の新しい分野は、安全な強化学習 (RL) です。この目的は、安全性の制約に従いながら報酬を最大化することです。
制約を処理できることは、制約違反がエージェントと環境に損害を与える可能性がある実世界の環境で RL エージェントを展開するために不可欠です。
この目的のために、安全批評家と報酬批評家からなる新しい乗法価値関数を備えた安全なモデルフリーRLアルゴリズムを提案します。
安全性の批評家は、制約違反の確率を予測し、制約のないリターンのみを推定する報酬の批評家を割り引きます。
責任を分担することで、サンプル効率の向上につながる学習タスクを促進します。
私たちのアプローチを 2 つの一般的な RL アルゴリズムである Proximal Policy Optimization と Soft Actor-Critic に統合し、安全性制約で強化された従来の RL ベンチマークと、画像と生の Lidar スキャンを観測として使用するロボット ナビゲーション タスクを含む、4 つの安全性重視の環境で方法を評価します。
.
最後に、差動駆動ロボットが散らかった部屋をナビゲートする必要があるゼロ ショット sim-to-real 転送を行います。
コードは https://github.com/nikeke19/Safe-Mult-RL にあります。
要約(オリジナル)
An emerging field of sequential decision problems is safe Reinforcement Learning (RL), where the objective is to maximize the reward while obeying safety constraints. Being able to handle constraints is essential for deploying RL agents in real-world environments, where constraint violations can harm the agent and the environment. To this end, we propose a safe model-free RL algorithm with a novel multiplicative value function consisting of a safety critic and a reward critic. The safety critic predicts the probability of constraint violation and discounts the reward critic that only estimates constraint-free returns. By splitting responsibilities, we facilitate the learning task leading to increased sample efficiency. We integrate our approach into two popular RL algorithms, Proximal Policy Optimization and Soft Actor-Critic, and evaluate our method in four safety-focused environments, including classical RL benchmarks augmented with safety constraints and robot navigation tasks with images and raw Lidar scans as observations. Finally, we make the zero-shot sim-to-real transfer where a differential drive robot has to navigate through a cluttered room. Our code can be found at https://github.com/nikeke19/Safe-Mult-RL.
arxiv情報
著者 | Nick Bührer,Zhejun Zhang,Alexander Liniger,Fisher Yu,Luc Van Gool |
発行日 | 2023-03-07 18:29:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google