要約
タイトル:連続時間LQR問題に対する効率的なオフポリシー強化学習アルゴリズム
要約:
– 連続時間LQR問題を解決するために、入力-状態データのみを使用するオフポリシー強化学習アルゴリズムが設計された。
– 他のアルゴリズムとは異なり、探索信号として特定の持続的に興奮を起こす入力の使用を提案している。
– この持続的に興奮を起こすデータを使用することで、アルゴリズムの行列方程式の解が各反復で存在し、一意であることが保証される。また、アルゴリズムが最適制御入力に収束することも証明されている。
– さらに、ポリシー評価ステップをシルベスター転置方程式の解として定式化することで、効率的な解法を提供している。
– 最後に、測定されたデータのみを使用して安定化ポリシーを決定する方法が提案されている。
要約(オリジナル)
In this paper, an off-policy reinforcement learning algorithm is designed to solve the continuous-time LQR problem using only input-state data measured from the system. Different from other algorithms in the literature, we propose the use of a specific persistently exciting input as the exploration signal during the data collection step. We then show that, using this persistently excited data, the solution of the matrix equation in our algorithm is guaranteed to exist and to be unique at every iteration. Convergence of the algorithm to the optimal control input is also proven. Moreover, we formulate the policy evaluation step as the solution of a Sylvester-transpose equation, which increases the efficiency of its solution. Finally, a method to determine a stabilizing policy to initialize the algorithm using only measured data is proposed.
arxiv情報
著者 | Victor G. Lopez,Matthias A. Müller |
発行日 | 2023-03-31 06:30:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI