Relaxed Actor-Critic with Convergence Guarantees for Continuous-Time Optimal Control of Nonlinear Systems

要約

タイトル:非線形システムの連続時間最適制御の収束保証を持つリラックスされたアクター・クリティック法

要約:
– この論文では、車両のパス追跡制御など、既知のダイナミクスと無限時間を持つ非線形連続時間(CT)システムのほぼ最適なポリシーを見つけるための方法である「リラックスされた連続時間アクター・クリティック(RCTAC)」アルゴリズムを紹介する。
– RCTACは、CTシステムに対する既存の適応型動的プログラミングアルゴリズムに比べて、初期ポリシーの「適格性」または制御対象システムの入力アフィン性の収束性を必要としないなど、いくつかの利点がある。
– RCTACは、任意の初期ポリシーに対して、飽和控制器を持つ一般的な非線形システムの適格で、その後ほぼ最適なポリシーに収束することができる。
– RCTACは、「ウォームアップフェーズ」と「一般化ポリシー反復フェーズ」の2つのフェーズで構成される。ウォームアップフェーズでは、適格性を達成するためにハミルトニアンの2乗和を最小化し、一般化ポリシー反復フェーズでは、更新の終了条件を緩和して収束をより速くする。
– リャプノフ解析によってアルゴリズムの収束性と最適性を証明し、シミュレーションと実世界のパス追跡タスクを通じてその効果を実証する。

要約(オリジナル)

This paper presents the Relaxed Continuous-Time Actor-critic (RCTAC) algorithm, a method for finding the nearly optimal policy for nonlinear continuous-time (CT) systems with known dynamics and infinite horizon, such as the path-tracking control of vehicles. RCTAC has several advantages over existing adaptive dynamic programming algorithms for CT systems. It does not require the “admissibility’ of the initialized policy or the input-affine nature of controlled systems for convergence. Instead, given any initial policy, RCTAC can converge to an admissible, and subsequently nearly optimal policy for a general nonlinear system with a saturated controller. RCTAC consists of two phases: a warm-up phase and a generalized policy iteration phase. The warm-up phase minimizes the square of the Hamiltonian to achieve admissibility, while the generalized policy iteration phase relaxes the update termination conditions for faster convergence. The convergence and optimality of the algorithm are proven through Lyapunov analysis, and its effectiveness is demonstrated through simulations and real-world path-tracking tasks.

arxiv情報

著者 Jingliang Duan,Jie Li,Qiang Ge,Shengbo Eben Li,Monimoy Bujarbaruah,Fei Ma,Dezhao Zhang
発行日 2023-03-30 06:09:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク