Actor-Critic Physics-informed Neural Lyapunov Control

要約

証明可能な保証を備えた安定化タスクの制御ポリシーを設計することは、非線形制御における長年の問題です。
重要な性能指標は、結果として生じる引力領域のサイズであり、これは本質的に、不確実性に対する閉ループ システムの堅牢性の「マージン」として機能します。
この論文では、作動制約を尊重しながら結果として得られる引力領域を最大化することを目的として、安定化ニューラル ネットワーク コントローラーとそれに対応する Lyapunov 証明書をトレーニングする新しい方法を提案します。
私たちのアプローチで重要なのは、特定の制御ポリシーの真の魅力領域を正確に特徴付けるズボフ偏微分方程式 (PDE) の使用です。
私たちのフレームワークはアクター-批評家のパターンに従い、制御ポリシーの改善 (アクター) とズボフ関数の学習 (批評家) を交互に行います。
最後に、トレーニング手順の後に SMT ソルバーを呼び出して、最大の認定可能な引力領域を計算します。
いくつかの設計問題に関する数値実験では、結果として得られる吸引領域のサイズが一貫して大幅に改善されたことが示されています。

要約(オリジナル)

Designing control policies for stabilization tasks with provable guarantees is a long-standing problem in nonlinear control. A crucial performance metric is the size of the resulting region of attraction, which essentially serves as a robustness ‘margin’ of the closed-loop system against uncertainties. In this paper, we propose a new method to train a stabilizing neural network controller along with its corresponding Lyapunov certificate, aiming to maximize the resulting region of attraction while respecting the actuation constraints. Crucial to our approach is the use of Zubov’s Partial Differential Equation (PDE), which precisely characterizes the true region of attraction of a given control policy. Our framework follows an actor-critic pattern where we alternate between improving the control policy (actor) and learning a Zubov function (critic). Finally, we compute the largest certifiable region of attraction by invoking an SMT solver after the training procedure. Our numerical experiments on several design problems show consistent and significant improvements in the size of the resulting region of attraction.

arxiv情報

著者 Jiarui Wang,Mahyar Fazlyab
発行日 2024-08-01 15:16:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク