Progressive Adaptive Chance-Constrained Safeguards for Reinforcement Learning

要約

強化学習 (RL) の安全性の保証は、現実世界のシナリオでの探索にとって重要です。
制約付きマルコフ決定プロセスを処理する際、現在のアプローチでは、最適性と実現可能性の間のトレードオフにおいて本質的な困難が生じます。
直接最適化手法は状態に応じたトレーニング中の安全性を厳密に保証できませんが、投影ベースの手法は通常、非効率的であり、長い反復を通じて正しいアクションになります。
これら 2 つの課題に対処するために、この論文では、安全コストに対する適応型代理機会制約と、高速準ニュートン法を介して上位ポリシー層によって生成されたアクションを修正する階層アーキテクチャを提案します。
理論的分析により、緩和された確率的制約により、安全セットに対する前方不変性が十分に保証されることが示されています。
提案された方法を、4 つのシミュレートされた実際の安全性が重要なロボット タスクで検証します。
結果は、提案された方法が、最適性 (+23.8%)、ロバスト性、および確率的な現実世界の設定に対する一般化可能性を維持しながら、安全性 (違反がほぼゼロ) を効率的に強化できることを示しています。

要約(オリジナル)

Safety assurance of Reinforcement Learning (RL) is critical for exploration in real-world scenarios. In handling the Constrained Markov Decision Process, current approaches experience intrinsic difficulties in trading-off between optimality and feasibility. Direct optimization methods cannot strictly guarantee state-wise in-training safety while projection-based methods are usually inefficient and correct actions through lengthy iterations. To address these two challenges, this paper proposes an adaptive surrogate chance constraint for the safety cost, and a hierarchical architecture that corrects actions produced by the upper policy layer via a fast Quasi-Newton method. Theoretical analysis indicates that the relaxed probabilistic constraint can sufficiently guarantee forward invariance to the safe set. We validate the proposed method on 4 simulated and real-world safety-critical robotic tasks. Results indicate that the proposed method can efficiently enforce safety (nearly zero-violation), while preserving optimality (+23.8%), robustness and generalizability to stochastic real-world settings.

arxiv情報

著者 Zhaorun Chen,Binhao Chen,Tairan He,Liang Gong,Chengliang Liu
発行日 2023-10-05 08:29:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク