要約
強化学習 (RL) アルゴリズムはシミュレーション環境で多大な成功を収めていますが、現実世界の問題への適用は安全性が大きな懸念事項であり、大きな課題に直面しています。
特に、状態に関する制約を強制することは、自動運転やロボット操作などの多くの困難なタスクにとって不可欠です。
ただし、制約付きマルコフ決定プロセス (CMDP) のフレームワークに基づく既存の安全な RL アルゴリズムは、状態ごとの制約を考慮していません。
このギャップに対処するために、状態ごとの制約付き強化学習のための最初の汎用ポリシー検索アルゴリズムである状態ごとの制約付きポリシー最適化 (SCPO) を提案します。
SCPO は、期待される状態ごとの制約を満たす保証を提供します。
特に、最大マルコフ決定プロセスのフレームワークを導入し、最悪の安全性違反が SCPO の下で制限されることを証明します。
我々は、エージェントがさまざまな状態ごとの安全制約を満たす必要がある広範なロボット移動タスクに対するニューラル ネットワーク ポリシーのトレーニングに対するアプローチの有効性を実証します。
私たちの結果は、SCPO が既存の手法を大幅に上回っており、高次元ロボットタスクにおける状態に関する制約を処理できることを示しています。
要約(オリジナル)
Reinforcement Learning (RL) algorithms have shown tremendous success in simulation environments, but their application to real-world problems faces significant challenges, with safety being a major concern. In particular, enforcing state-wise constraints is essential for many challenging tasks such as autonomous driving and robot manipulation. However, existing safe RL algorithms under the framework of Constrained Markov Decision Process (CMDP) do not consider state-wise constraints. To address this gap, we propose State-wise Constrained Policy Optimization (SCPO), the first general-purpose policy search algorithm for state-wise constrained reinforcement learning. SCPO provides guarantees for state-wise constraint satisfaction in expectation. In particular, we introduce the framework of Maximum Markov Decision Process, and prove that the worst-case safety violation is bounded under SCPO. We demonstrate the effectiveness of our approach on training neural network policies for extensive robot locomotion tasks, where the agent must satisfy a variety of state-wise safety constraints. Our results show that SCPO significantly outperforms existing methods and can handle state-wise constraints in high-dimensional robotics tasks.
arxiv情報
著者 | Weiye Zhao,Rui Chen,Yifan Sun,Tianhao Wei,Changliu Liu |
発行日 | 2024-06-17 19:41:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google