Constraint-Conditioned Policy Optimization for Versatile Safe Reinforcement Learning

要約

安全強化学習 (RL) は、事前定義された安全制約に従って報酬を最大化するエージェントをトレーニングすることに焦点を当てています。
しかし、展開中に再トレーニングなしでさまざまな安全制約要件に適応できる汎用性の高い安全ポリシーを学習することは、依然としてほとんど未踏で困難な領域です。
この研究では、多用途の安全な RL 問題を定式化し、トレーニング効率とゼロショット適応能力という 2 つの主要な要件を検討します。
これらに対処するために、条件付き制約付きポリシー最適化 (CCPO) フレームワークを導入します。このフレームワークは、(1) 目に見えないしきい値条件下で値関数を近似する汎用値推定 (VVE) と、(2) 条件付き変分推論 (CVI) の 2 つの主要なモジュールで構成されます。
ポリシーの最適化中に任意の制約しきい値をエンコードするため。
私たちの広範な実験により、CCPO は、さまざまな制約しきい値に対するゼロショット適応機能をデータ効率的に維持しながら、安全性とタスクのパフォーマンスの点でベースラインを上回っていることが実証されています。
これにより、私たちのアプローチは現実世界の動的アプリケーションに適したものになります。

要約(オリジナル)

Safe reinforcement learning (RL) focuses on training reward-maximizing agents subject to pre-defined safety constraints. Yet, learning versatile safe policies that can adapt to varying safety constraint requirements during deployment without retraining remains a largely unexplored and challenging area. In this work, we formulate the versatile safe RL problem and consider two primary requirements: training efficiency and zero-shot adaptation capability. To address them, we introduce the Conditioned Constrained Policy Optimization (CCPO) framework, consisting of two key modules: (1) Versatile Value Estimation (VVE) for approximating value functions under unseen threshold conditions, and (2) Conditioned Variational Inference (CVI) for encoding arbitrary constraint thresholds during policy optimization. Our extensive experiments demonstrate that CCPO outperforms the baselines in terms of safety and task performance while preserving zero-shot adaptation capabilities to different constraint thresholds data-efficiently. This makes our approach suitable for real-world dynamic applications.

arxiv情報

著者 Yihang Yao,Zuxin Liu,Zhepeng Cen,Jiacheng Zhu,Wenhao Yu,Tingnan Zhang,Ding Zhao
発行日 2023-10-05 17:39:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク