Certifying Stability of Reinforcement Learning Policies using Generalized Lyapunov Functions

要約

最適な制御または補強学習(RL)から派生した制御ポリシーの下で、閉ループシステムの安定性を証明する問題を研究します。
古典的なリアプノフ法では、リアプノフ関数の厳密な段階的な減少が必要ですが、このような証明書は、学習制御ポリシーのために構築するのが困難です。
RLポリシーに関連付けられている値関数は、自然なリアプノフ関数候補ですが、どのように変更する必要があるかは明確ではありません。
直感を得るために、まず線形二次調節因子(LQR)問題を研究し、2つの重要な観察を行います。
まず、Lyapunov関数は、システムのダイナミクスとステージコストに関連する残差用語でそれを増強することにより、LQRポリシーの値関数から取得できます。
第二に、古典的なリアプノフの減少要件は、一般化されたリアプノフ状態に緩和される可能性があり、複数の時間ステップで平均して平均して減少する必要があります。
この直感を使用して、非線形設定を検討し、ニューラルネットワーク残差項でRL値関数を増強することにより、一般化されたリアプノフ関数を学習するアプローチを策定します。
私たちのアプローチは、体育館とディープマインドコントロールベンチマークで訓練されたRLポリシーの安定性を正常に証明しています。
また、マルチステップのリアプノフ損失を使用して、ニューラルコントローラーと安定性証明書を共同でトレーニングする方法を拡張し、クラシックリアプノフアプローチと比較して、引力領域のより大きな認定内側近似をもたらします。
全体として、当社の定式化により、証明書を構築しやすくし、それにより古典的な制御理論と最新の学習ベースの方法を橋渡しすることにより、学習ポリシーを備えた幅広いクラスのシステムの安定性認証が可能になります。

要約(オリジナル)

We study the problem of certifying the stability of closed-loop systems under control policies derived from optimal control or reinforcement learning (RL). Classical Lyapunov methods require a strict step-wise decrease in the Lyapunov function but such a certificate is difficult to construct for a learned control policy. The value function associated with an RL policy is a natural Lyapunov function candidate but it is not clear how it should be modified. To gain intuition, we first study the linear quadratic regulator (LQR) problem and make two key observations. First, a Lyapunov function can be obtained from the value function of an LQR policy by augmenting it with a residual term related to the system dynamics and stage cost. Second, the classical Lyapunov decrease requirement can be relaxed to a generalized Lyapunov condition requiring only decrease on average over multiple time steps. Using this intuition, we consider the nonlinear setting and formulate an approach to learn generalized Lyapunov functions by augmenting RL value functions with neural network residual terms. Our approach successfully certifies the stability of RL policies trained on Gymnasium and DeepMind Control benchmarks. We also extend our method to jointly train neural controllers and stability certificates using a multi-step Lyapunov loss, resulting in larger certified inner approximations of the region of attraction compared to the classical Lyapunov approach. Overall, our formulation enables stability certification for a broad class of systems with learned policies by making certificates easier to construct, thereby bridging classical control theory and modern learning-based methods.

arxiv情報

著者 Kehan Long,Jorge Cortés,Nikolay Atanasov
発行日 2025-05-16 07:36:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY, math.OC パーマリンク