Two-step reinforcement learning for model-free redesign of nonlinear optimal regulator

要約

タイトル:非線形最適レギュレーターのモデルフリー再設計のための2段階強化学習

要旨:多くの実用的な制御システムでは、プラント特性の変化により閉ループシステムのパフォーマンスレベルが時間とともに低下する。そのため、閉ループシステムに対するシステムモデリングプロセスがしばしば困難であるため、コントローラを再設計することが重要である。強化学習は、閉ループシステムの測定値に基づいて非線形ダイナミックシステムの最適コントローラをモデルフリーに再設計する有望なアプローチの1つである。しかし、強化学習の学習プロセスは通常、プラントへの摩耗を蓄積させる可能性がある制御性能の低いシステムを用いた多数の試行錯誤実験を必要とする。この制限を克服するために、我々は未知の非線形システムに対する最適レギュレーター再設計問題において、強化学習の過渡学習性能を改善するモデルフリーな2段階設計アプローチを提案する。具体的には、最初にモデルフリーにある程度の制御性能を達成する線形制御則を設計し、それを並行して使用して非線形最適制御則をオンラインで強化学習で訓練する。線形制御則の設計にはオフライン強化学習アルゴリズムを導入し、緩い仮定の下でLQR(線形二次レギュレータ)制御器への収束を理論的に保証する。数値シミュレーションにより、提案手法が強化学習の過渡学習性能とハイパーパラメータチューニングの効率を向上させることを示す。

主なポイント:

– 多くの制御システムでは、時間とともに閉ループシステムのパフォーマンスが低下する。
– 非線形最適制御システムのモデルフリー再設計には、強化学習が有望な手法である。
– 強化学習の学習プロセスには多数の試行錯誤実験が必要であり、プラントに摩耗を与えるリスクがある。
– モデルフリーな2段階設計アプローチにより、線形制御則を設計して、その後、非線形制御則をオンラインで強化学習で訓練することにより、過渡学習性能を改善することができる。
– オフライン強化学習アルゴリズムを導入し、仮定の下でLQR制御器への収束を理論的に保証する。
– 数値シミュレーションにより、提案手法が強化学習の過渡学習性能とハイパーパラメータチューニングの効率を向上させることが示されている。

要約(オリジナル)

In many practical control applications, the performance level of a closed-loop system degrades over time due to the change of plant characteristics. Thus, there is a strong need for redesigning a controller without going through the system modeling process, which is often difficult for closed-loop systems. Reinforcement learning (RL) is one of the promising approaches that enable model-free redesign of optimal controllers for nonlinear dynamical systems based only on the measurement of the closed-loop system. However, the learning process of RL usually requires a considerable number of trial-and-error experiments using the poorly controlled system that may accumulate wear on the plant. To overcome this limitation, we propose a model-free two-step design approach that improves the transient learning performance of RL in an optimal regulator redesign problem for unknown nonlinear systems. Specifically, we first design a linear control law that attains some degree of control performance in a model-free manner, and then, train the nonlinear optimal control law with online RL by using the designed linear control law in parallel. We introduce an offline RL algorithm for the design of the linear control law and theoretically guarantee its convergence to the LQR controller under mild assumptions. Numerical simulations show that the proposed approach improves the transient learning performance and efficiency in hyperparameter tuning of RL.

arxiv情報

著者 Mei Minami,Yuka Masumoto,Yoshihiro Okawa,Tomotake Sasaki,Yutaka Hori
発行日 2023-04-24 14:00:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク