要約
強化学習(RL)アルゴリズムは、シミュレーション環境では大きな成功を収めているが、実世界の問題への適用は、安全性が大きな懸念であるなど、大きな課題に直面している。特に、自律走行やロボット操作のような多くの困難なタスクでは、状態ごとの制約を強制することが不可欠である。しかし、制約付きマルコフ決定過程(CMDP)の枠組みの下での既存の安全なRLアルゴリズムは、状態ごとの制約を考慮していない。このギャップを解決するために、我々は状態制約付き強化学習のための初の汎用政策探索アルゴリズムである状態制約付き政策最適化(State-wise Constrained Policy Optimization: SCPO)を提案する。SCPOは、期待値における状態ごとの制約充足の保証を提供する。特に、最大マルコフ決定過程の枠組みを導入し、SCPOの下では最悪の安全違反が有界であることを証明する。我々は、エージェントが様々な状態別安全制約を満足しなければならない、広範囲なロボット運動タスクのためのニューラルネットワークポリシーの学習において、我々のアプローチの有効性を実証する。その結果、SCPOが既存の手法を大幅に凌駕し、高次元ロボットタスクにおける状態制約を扱えることが示された。
要約(オリジナル)
Reinforcement Learning (RL) algorithms have shown tremendous success in simulation environments, but their application to real-world problems faces significant challenges, with safety being a major concern. In particular, enforcing state-wise constraints is essential for many challenging tasks such as autonomous driving and robot manipulation. However, existing safe RL algorithms under the framework of Constrained Markov Decision Process (CMDP) do not consider state-wise constraints. To address this gap, we propose State-wise Constrained Policy Optimization (SCPO), the first general-purpose policy search algorithm for state-wise constrained reinforcement learning. SCPO provides guarantees for state-wise constraint satisfaction in expectation. In particular, we introduce the framework of Maximum Markov Decision Process, and prove that the worst-case safety violation is bounded under SCPO. We demonstrate the effectiveness of our approach on training neural network policies for extensive robot locomotion tasks, where the agent must satisfy a variety of state-wise safety constraints. Our results show that SCPO significantly outperforms existing methods and can handle state-wise constraints in high-dimensional robotics tasks.
arxiv情報
著者 | Weiye Zhao,Rui Chen,Yifan Sun,Tianhao Wei,Changliu Liu |
発行日 | 2023-06-30 19:51:21+00:00 |
arxivサイト | arxiv_id(pdf) |