NLBAC: A Neural Ordinary Differential Equations-based Framework for Stable and Safe Reinforcement Learning

要約

強化学習 (RL) はビデオ ゲームやロボット工学などのアプリケーションに優れていますが、サンプル効率が低いためモデルフリー アルゴリズムの使用が法外な可能性がある現実世界のシステムを制御するために RL を使用する場合、安全性と安定性を確保することは依然として課題です。
この論文では、まず RL システムの安全性と安定性の定義を示し、次に神経常微分方程式 (NODE) を利用してシステム ダイナミクスを近似し、制御を統合する神経常微分方程式ベースのリアプノフ バリア アクター クリティカル (NLBAC) フレームワークを紹介します。
システムの安全性と安定性の維持を支援するアクタークリティカル手法を備えたバリア関数 (CBF) およびコントロール リアプノフ関数 (CLF) フレームワーク。
このフレームワーク内で、拡張ラグランジアン法を使用して RL ベースのコントローラー パラメーターを更新します。
さらに、安全性のための CBF 制約と安定性のための CLF 制約を同時に満たすことができない状況では、追加のバックアップ コントローラーを導入します。
シミュレーション結果は、このフレームワークがシステムを望ましい状態に近づけ、他の方法と比較してより良いサンプル効率で安全制約の違反を少なくできることを示しています。

要約(オリジナル)

Reinforcement learning (RL) excels in applications such as video games and robotics, but ensuring safety and stability remains challenging when using RL to control real-world systems where using model-free algorithms suffering from low sample efficiency might be prohibitive. This paper first provides safety and stability definitions for the RL system, and then introduces a Neural ordinary differential equations-based Lyapunov-Barrier Actor-Critic (NLBAC) framework that leverages Neural Ordinary Differential Equations (NODEs) to approximate system dynamics and integrates the Control Barrier Function (CBF) and Control Lyapunov Function (CLF) frameworks with the actor-critic method to assist in maintaining the safety and stability for the system. Within this framework, we employ the augmented Lagrangian method to update the RL-based controller parameters. Additionally, we introduce an extra backup controller in situations where CBF constraints for safety and the CLF constraint for stability cannot be satisfied simultaneously. Simulation results demonstrate that the framework leads the system to approach the desired state and allows fewer violations of safety constraints with better sample efficiency compared to other methods.

arxiv情報

著者 Liqun Zhao,Keyan Miao,Konstantinos Gatsis,Antonis Papachristodoulou
発行日 2024-01-23 23:50:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク