Learning Provably Stabilizing Neural Controllers for Discrete-Time Stochastic Systems

要約

確率 ~$1$ で特定の安定化領域内でシステムが安定することを保証する、離散時間確率システムにおける学習制御ポリシーの問題を検討します。
私たちのアプローチは、この研究で導入したランキング スーパーマルチンゲール (sRSM) を安定させるという新しい概念に基づいています。
我々の sRSM は、以前の研究で提案された方法の制限を克服します。その適用範囲は、いかなる制御ポリシーの下でも安定化領域に入るとそこから離れることができないシステムに限定されます。
制御ポリシーを学習する学習手順と、確率 ~$1$ の安定性を正式に証明する sRSM を一緒に学習し、両方ともニューラル ネットワークとして学習する学習手順を示します。
この手順は、特定のリプシッツ連続制御ポリシーの下で、確率システムが確率 ~$1$ で安定化領域内で安定することを形式的に検証するのにも適用できることを示します。
私たちの実験的評価は、学習手順が実際に安定化することが証明されたポリシーを首尾よく学習できることを示しています。

要約(オリジナル)

We consider the problem of learning control policies in discrete-time stochastic systems which guarantee that the system stabilizes within some specified stabilization region with probability~$1$. Our approach is based on the novel notion of stabilizing ranking supermartingales (sRSMs) that we introduce in this work. Our sRSMs overcome the limitation of methods proposed in previous works whose applicability is restricted to systems in which the stabilizing region cannot be left once entered under any control policy. We present a learning procedure that learns a control policy together with an sRSM that formally certifies probability~$1$ stability, both learned as neural networks. We show that this procedure can also be adapted to formally verifying that, under a given Lipschitz continuous control policy, the stochastic system stabilizes within some stabilizing region with probability~$1$. Our experimental evaluation shows that our learning procedure can successfully learn provably stabilizing policies in practice.

arxiv情報

著者 Matin Ansaripour,Krishnendu Chatterjee,Thomas A. Henzinger,Mathias Lechner,Đorđe Žikelić
発行日 2023-07-28 08:00:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY パーマリンク