Provably Safe Reinforcement Learning via Action Projection using Reachability Analysis and Polynomial Zonotopes

要約

強化学習は多くのアプリケーションで非常に有望な結果をもたらしますが、その主な欠点は、安全性が保証されないことであり、安全性が重要なシステムでの使用が妨げられています。
この作業では、到達回避タスクを解決する非線形連続システムの安全シールドによってこの問題に対処します。
私たちの安全シールドは、提案されたアクションを最も近い安全なアクションに投影することにより、強化学習エージェントから潜在的に危険なアクションを適用することを防ぎます。
このアプローチはアクション プロジェクションと呼ばれ、混合整数最適化によって実装されます。
アクション プロジェクションの安全制約は、多項式ゾノトープを使用したパラメーター化された到達可能性分析を適用することによって取得されます。これにより、システムに対するアクションの非線形効果を正確に捉えることができます。
アクション プロジェクションの他の最先端のアプローチとは対照的に、当社の安全シールドは、入力制約と動的障害物を効率的に処理し、安全制約への空間ロボットの寸法の組み込みを容易にし、プロセス ノイズや測定エラーにもかかわらず堅牢な安全を保証します。
いくつかの挑戦的なベンチマーク システムで実証されているように、高次元システムに適しています。

要約(オリジナル)

While reinforcement learning produces very promising results for many applications, its main disadvantage is the lack of safety guarantees, which prevents its use in safety-critical systems. In this work, we address this issue by a safety shield for nonlinear continuous systems that solve reach-avoid tasks. Our safety shield prevents applying potentially unsafe actions from a reinforcement learning agent by projecting the proposed action to the closest safe action. This approach is called action projection and is implemented via mixed-integer optimization. The safety constraints for action projection are obtained by applying parameterized reachability analysis using polynomial zonotopes, which enables to accurately capture the nonlinear effects of the actions on the system. In contrast to other state-of-the-art approaches for action projection, our safety shield can efficiently handle input constraints and dynamic obstacles, eases incorporation of the spatial robot dimensions into the safety constraints, guarantees robust safety despite process noise and measurement errors, and is well suited for high-dimensional systems, as we demonstrate on several challenging benchmark systems.

arxiv情報

著者 Niklas Kochdumper,Hanna Krasowski,Xiao Wang,Stanley Bak,Matthias Althoff
発行日 2023-03-14 07:27:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク