Distributionally Safe Reinforcement Learning under Model Uncertainty: A Single-Level Approach by Differentiable Convex Programming

要約

モデルに劇的な不確実性 (分布の変化など) が存在する安全クリティカルな環境、特に人間が関与している環境では、安全性の保証は妥協できません。
ただし、安全な学習に不確実性を組み込むと、当然のことながら 2 レベルの問題が発生します。つまり、下位レベルでは、(最悪の場合の) 安全制約が不確実性の曖昧性セット内で評価されます。
この論文では、Wasserstein メトリクスによって測定される分布シフトの下で安全性を強制する、扱いやすい分布的に安全な強化学習フレームワークを紹介します。
扱いやすさを改善するために、まず双対性理論を使用して、分布シフトが測定される無限次元の確率空間から有限次元のパラメトリック空間に下位レベルの最適化を変換します。
さらに、微分可能な凸計画法により、2 レベルの安全な学習問題は、2 つの連続した計算効率の高いモジュールを備えた単一レベルの問題にさらに縮小されます。つまり、安全性を保証する凸二次計画と、その後に最悪のケースを同時に見つけるための投影勾配上昇が続きます。
不確実性。
安全制約を備えたこのエンドツーエンドの微分可能なフレームワークは、私たちの知る限りでは、流通の安全性に対処するための最初の扱いやすい単一レベルのソリューションです。
私たちは、さまざまな複雑さを持つ一次および二次システムでアプローチをテストし、その結果を不確実性を無視したポリシーと比較します。そこでは、私たちのアプローチが安全性保証において大幅な改善を示しています。

要約(オリジナル)

Safety assurance is uncompromisable for safety-critical environments with the presence of drastic model uncertainties (e.g., distributional shift), especially with humans in the loop. However, incorporating uncertainty in safe learning will naturally lead to a bi-level problem, where at the lower level the (worst-case) safety constraint is evaluated within the uncertainty ambiguity set. In this paper, we present a tractable distributionally safe reinforcement learning framework to enforce safety under a distributional shift measured by a Wasserstein metric. To improve the tractability, we first use duality theory to transform the lower-level optimization from infinite-dimensional probability space where distributional shift is measured, to a finite-dimensional parametric space. Moreover, by differentiable convex programming, the bi-level safe learning problem is further reduced to a single-level one with two sequential computationally efficient modules: a convex quadratic program to guarantee safety followed by a projected gradient ascent to simultaneously find the worst-case uncertainty. This end-to-end differentiable framework with safety constraints, to the best of our knowledge, is the first tractable single-level solution to address distributional safety. We test our approach on first and second-order systems with varying complexities and compare our results with the uncertainty-agnostic policies, where our approach demonstrates a significant improvement on safety guarantees.

arxiv情報

著者 Alaa Eddine Chriat,Chuangchuang Sun
発行日 2023-10-03 22:05:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク