Model-Free $δ$-Policy Iteration Based on Damped Newton Method for Nonlinear Continuous-Time H$\infty$ Tracking Control

要約

本稿では、未知の連続時間非線形システムの H{\infty} 追跡制御問題に対する減衰ニュートン法に基づく {\delta}-PI アルゴリズムを提案します。
割引パフォーマンス関数と拡張システムを使用して、追跡ハミルトン・ヤコビ・アイザック (HJI) 方程式を取得します。
追跡 HJI 方程式は非線形偏微分方程式であり、追跡 HJI 方程式を解くための従来の強化学習手法は主にニュートン法に基づいていますが、通常は局所的な収束のみを満たし、適切な初期推定が必要です。
減衰ニュートン反復演算子方程式に基づいて、一般化された追跡ベルマン方程式が最初に導出されます。
{\delta}-PI アルゴリズムは、一般化された追跡ベルマン方程式を反復的に解くことにより、追跡 HJI 方程式の最適解を求めることができます。
オンポリシー学習とオフポリシー学習 {\delta}-PI 強化学習手法がそれぞれ提供されます。
オフポリシー バージョン {\delta}-PI アルゴリズムは、システム ダイナミクスの事前知識を利用せずに実行できるモデルフリー アルゴリズムです。
オフポリシー {\delta}-PI アルゴリズムの NN ベースの実装スキームを示します。
モデルフリーの {\delta}-PI アルゴリズムの適合性は、非線形システム シミュレーションで示されます。

要約(オリジナル)

This paper presents a {\delta}-PI algorithm which is based on damped Newton method for the H{\infty} tracking control problem of unknown continuous-time nonlinear system. A discounted performance function and an augmented system are used to get the tracking Hamilton-Jacobi-Isaac (HJI) equation. Tracking HJI equation is a nonlinear partial differential equation, traditional reinforcement learning methods for solving the tracking HJI equation are mostly based on the Newton method, which usually only satisfies local convergence and needs a good initial guess. Based upon the damped Newton iteration operator equation, a generalized tracking Bellman equation is derived firstly. The {\delta}-PI algorithm can seek the optimal solution of the tracking HJI equation by iteratively solving the generalized tracking Bellman equation. On-policy learning and off-policy learning {\delta}-PI reinforcement learning methods are provided, respectively. Off-policy version {\delta}-PI algorithm is a model-free algorithm which can be performed without making use of a priori knowledge of the system dynamics. NN-based implementation scheme for the off-policy {\delta}-PI algorithms is shown. The suitability of the model-free {\delta}-PI algorithm is illustrated with a nonlinear system simulation.

arxiv情報

著者 Qi Wang
発行日 2024-01-23 16:22:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク