Learn With Imagination: Safe Set Guided State-wise Constrained Policy Optimization

要約

深層強化学習 (RL) はさまざまな制御タスクに優れていますが、安全性が保証されていないため、現実世界への適用が妨げられています。
特に、学習中の探索は通常、安全違反につながりますが、RL エージェントはそれらの間違いから学習します。
一方、安全制御技術は持続的な安全性の満足を保証しますが、システムダイナミクスに関する強力な事前情報が必要であり、実際にはこれを取得するのは通常困難です。
これらの問題に対処するために、我々は、トレーニング違反なし、つまり間違いのない学習で状態ごとに安全な最適なポリシーを生成する先駆的なアルゴリズムである、セーフ セット ガイド付きの状態ごとの制約付きポリシー最適化 (S-3PO) を紹介します。
S-3PO は、安全な探査を確保するために、ブラックボックスダイナミクスを備えた安全性重視のモニターを初めて採用しました。
次に、RL エージェントが安全性の制約内で最適な動作に収束するように「仮想」コストを強制します。
S-3PO は、高次元ロボットタスクにおいて既存の手法を上回り、トレーニング違反なしで状態に関する制約を管理します。
このイノベーションは、現実世界の安全な RL 導入に向けた大きな進歩を示します。

要約(オリジナル)

Deep reinforcement learning (RL) excels in various control tasks, yet the absence of safety guarantees hampers its real-world applicability. In particular, explorations during learning usually results in safety violations, while the RL agent learns from those mistakes. On the other hand, safe control techniques ensure persistent safety satisfaction but demand strong priors on system dynamics, which is usually hard to obtain in practice. To address these problems, we present Safe Set Guided State-wise Constrained Policy Optimization (S-3PO), a pioneering algorithm generating state-wise safe optimal policies with zero training violations, i.e., learning without mistakes. S-3PO first employs a safety-oriented monitor with black-box dynamics to ensure safe exploration. It then enforces an ‘imaginary’ cost for the RL agent to converge to optimal behaviors within safety constraints. S-3PO outperforms existing methods in high-dimensional robotics tasks, managing state-wise constraints with zero training violation. This innovation marks a significant stride towards real-world safe RL deployment.

arxiv情報

著者 Feihan Li,Yifan Sun,Weiye Zhao,Rui Chen,Tianhao Wei,Changliu Liu
発行日 2024-10-01 01:50:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク