Two-step reinforcement learning for model-free redesign of nonlinear optimal regulator

要約

多くの実際の制御アプリケーションでは、プラント特性の変化により、閉ループ システムのパフォーマンス レベルが時間の経過とともに低下します。
したがって、システム モデリング プロセスを経ずにコントローラーを再設計することが強く求められていますが、これは閉ループ システムでは困難であることがよくあります。
強化学習 (RL) は、閉ループ システムの測定のみに基づいて、非線形動的システムの最適なコントローラーのモデルフリーの再設計を可能にする、有望なアプローチの 1 つです。
ただし、RL の学習プロセスでは、通常、プラントに摩耗が蓄積する可能性がある、制御が不十分なシステムを使用したかなりの数の試行錯誤の実験が必要です。
この制限を克服するために、未知の非線形システムに対する最適なレギュレーター再設計問題における RL の過渡学習パフォーマンスを向上させる、モデルフリーの 2 段階の設計アプローチを提案します。
具体的には、モデルフリーである程度の制御性能が得られる線形制御則を設計し、設計した線形制御則を並列的に用いてオンラインRLにより非線形最適制御則を学習させます。
線形制御則の設計にオフライン RL アルゴリズムを導入し、穏やかな仮定の下で LQR コントローラーへの収束を理論的に保証します。
数値シミュレーションにより、提案されたアプローチにより、RL のハイパーパラメータ調整における過渡学習のパフォーマンスと効率が向上することが示されています。

要約(オリジナル)

In many practical control applications, the performance level of a closed-loop system degrades over time due to the change of plant characteristics. Thus, there is a strong need for redesigning a controller without going through the system modeling process, which is often difficult for closed-loop systems. Reinforcement learning (RL) is one of the promising approaches that enable model-free redesign of optimal controllers for nonlinear dynamical systems based only on the measurement of the closed-loop system. However, the learning process of RL usually requires a considerable number of trial-and-error experiments using the poorly controlled system that may accumulate wear on the plant. To overcome this limitation, we propose a model-free two-step design approach that improves the transient learning performance of RL in an optimal regulator redesign problem for unknown nonlinear systems. Specifically, we first design a linear control law that attains some degree of control performance in a model-free manner, and then, train the nonlinear optimal control law with online RL by using the designed linear control law in parallel. We introduce an offline RL algorithm for the design of the linear control law and theoretically guarantee its convergence to the LQR controller under mild assumptions. Numerical simulations show that the proposed approach improves the transient learning performance and efficiency in hyperparameter tuning of RL.

arxiv情報

著者 Mei Minami,Yuka Masumoto,Yoshihiro Okawa,Tomotake Sasaki,Yutaka Hori
発行日 2023-11-30 18:07:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク