微分方程式とシステム状態の離散的変化を組み合わせるスイッチ制御ハイブリッド システムの安全で最適なコントローラー合成は、非常に難しいことが知られています。
学習したコントローラーに安全性を課す 1 つの方法はシールドを使用することですが、これは設計上正しいものです。
この論文では、いわゆる野蛮な方法を使用したシールドの構築を提案します。この方法では、基礎となるパーティションベースの 2 プレイヤー安全ゲームの近似有限表現が、体系的に抽出された真の遷移関数のサンプルを通じて抽出されます。
厳密な安全性の保証は実現できませんが、プロトタイプの実装と UPPAAL STRATEGO を使用して、強力な統計的安全性の保証を実験的に実証しています。
さらに、合成シールドをプレシールド (コントローラーの学習前に適用) またはポストシールド (コントローラーの学習後にのみ適用) として適用した場合の影響を研究します。
私たちは、2 つの産業例を含むさまざまなケーススタディにこの技術を適用し、シールド後のアプローチの最適化をさらに研究します。
Safe and optimal controller synthesis for switched-controlled hybrid systems, which combine differential equations and discrete changes of the system’s state, is known to be intricately hard. Reinforcement learning has been leveraged to construct near-optimal controllers, but their behavior is not guaranteed to be safe, even when it is encouraged by reward engineering. One way of imposing safety to a learned controller is to use a shield, which is correct by design. However, obtaining a shield for non-linear and hybrid environments is itself intractable. In this paper, we propose the construction of a shield using the so-called barbaric method, where an approximate finite representation of an underlying partition-based two-player safety game is extracted via systematically picked samples of the true transition function. While hard safety guarantees are out of reach, we experimentally demonstrate strong statistical safety guarantees with a prototype implementation and UPPAAL STRATEGO. Furthermore, we study the impact of the synthesized shield when applied as either a pre-shield (applied before learning a controller) or a post-shield (only applied after learning a controller). We experimentally demonstrate superiority of the pre-shielding approach. We apply our technique on a range of case studies, including two industrial examples, and further study post-optimization of the post-shielding approach.
著者 | Asger Horn Brorholt,Peter Gjøl Jensen,Kim Guldstrand Larsen,Florian Lorber,Christian Schilling |
発行日 | 2023-08-28 09:04:52+00:00 |
arxivサイト | arxiv_id(pdf) |
