Shielded Reinforcement Learning for Hybrid Systems

要約

微分方程式とシステム状態の離散的変化を組み合わせるスイッチ制御ハイブリッド システムの安全で最適なコントローラー合成は、非常に難しいことが知られています。
強化学習は最適に近いコントローラーを構築するために活用されていますが、報酬エンジニアリングによって推奨されている場合でも、コントローラーの動作が安全であるとは保証されていません。
学習したコントローラーに安全性を課す 1 つの方法はシールドを使用することですが、これは設計上正しいものです。
ただし、非線形環境やハイブリッド環境用のシールドを入手すること自体が困難です。
この論文では、いわゆる野蛮な方法を使用したシールドの構築を提案します。この方法では、基礎となるパーティションベースの 2 プレイヤー安全ゲームの近似有限表現が、体系的に抽出された真の遷移関数のサンプルを通じて抽出されます。
厳密な安全性の保証は実現できませんが、プロトタイプの実装と UPPAAL STRATEGO を使用して、強力な統計的安全性の保証を実験的に実証しています。
さらに、合成シールドをプレシールド (コントローラーの学習前に適用) またはポストシールド (コントローラーの学習後にのみ適用) として適用した場合の影響を研究します。
我々は、事前シールドアプローチの優位性を実験的に実証します。
私たちは、2 つの産業例を含むさまざまなケーススタディにこの技術を適用し、シールド後のアプローチの最適化をさらに研究します。

要約(オリジナル)

Safe and optimal controller synthesis for switched-controlled hybrid systems, which combine differential equations and discrete changes of the system’s state, is known to be intricately hard. Reinforcement learning has been leveraged to construct near-optimal controllers, but their behavior is not guaranteed to be safe, even when it is encouraged by reward engineering. One way of imposing safety to a learned controller is to use a shield, which is correct by design. However, obtaining a shield for non-linear and hybrid environments is itself intractable. In this paper, we propose the construction of a shield using the so-called barbaric method, where an approximate finite representation of an underlying partition-based two-player safety game is extracted via systematically picked samples of the true transition function. While hard safety guarantees are out of reach, we experimentally demonstrate strong statistical safety guarantees with a prototype implementation and UPPAAL STRATEGO. Furthermore, we study the impact of the synthesized shield when applied as either a pre-shield (applied before learning a controller) or a post-shield (only applied after learning a controller). We experimentally demonstrate superiority of the pre-shielding approach. We apply our technique on a range of case studies, including two industrial examples, and further study post-optimization of the post-shielding approach.

arxiv情報

著者 Asger Horn Brorholt,Peter Gjøl Jensen,Kim Guldstrand Larsen,Florian Lorber,Christian Schilling
発行日 2023-08-28 09:04:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.LO, cs.SY, eess.SY パーマリンク