Learn With Imagination: Safe Set Guided State-wise Constrained Policy Optimization

要約

深層強化学習(RL)は様々な制御タスクに優れているが、安全性が保証されていないことが実世界での適用を妨げている。特に、学習中の探索は通常安全性違反につながるが、RLエージェントはそれらの間違いから学習する。一方、安全な制御技術は、持続的な安全性の満足を保証するが、システムダイナミクスに関する強力な事前情報を必要とし、これは通常、実際には入手困難である。これらの問題に対処するため、我々は、学習違反がゼロ、すなわち間違いのない学習で状態ごとの安全な最適ポリシーを生成する先駆的アルゴリズムである、安全集合誘導型状態ごと制約付きポリシー最適化(S-3PO)を提案する。S-3POは、まず安全な探索を保証するために、ブラックボックスダイナミクスを持つ安全指向のモニターを採用する。そして、RLエージェントが安全制約内で最適な振る舞いに収束するための「虚数」コストを強制する。S-3POは、高次元ロボットタスクにおいて既存の手法を凌駕し、学習違反ゼロで状態制約を管理する。この技術革新は、実世界での安全なRL配備に向けた大きな前進である。

要約(オリジナル)

Deep reinforcement learning (RL) excels in various control tasks, yet the absence of safety guarantees hampers its real-world applicability. In particular, explorations during learning usually results in safety violations, while the RL agent learns from those mistakes. On the other hand, safe control techniques ensure persistent safety satisfaction but demand strong priors on system dynamics, which is usually hard to obtain in practice. To address these problems, we present Safe Set Guided State-wise Constrained Policy Optimization (S-3PO), a pioneering algorithm generating state-wise safe optimal policies with zero training violations, i.e., learning without mistakes. S-3PO first employs a safety-oriented monitor with black-box dynamics to ensure safe exploration. It then enforces an ‘imaginary’ cost for the RL agent to converge to optimal behaviors within safety constraints. S-3PO outperforms existing methods in high-dimensional robotics tasks, managing state-wise constraints with zero training violation. This innovation marks a significant stride towards real-world safe RL deployment.

arxiv情報

著者 Yifan Sun,Feihan Li,Weiye Zhao,Rui Chen,Tianhao Wei,Changliu Liu
発行日 2025-06-03 11:28:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク