End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control

要約

(経済的) 非線形モデル予測制御 ((e)NMPC) には、十分に正確で計算上扱いやすい動的モデルが必要です。
機構モデルのデータ駆動型サロゲート モデルは、(e)NMPC の計算負荷を軽減できます。
ただし、このようなモデルは通常、シミュレーション サンプルの予測精度を最大化するためにシステム識別によってトレーニングされ、(e)NMPC では最適に動作しません。
(e)NMPC の一部として最適なパフォーマンスを実現する Koopman サロゲート モデルのエンドツーエンド強化学習の方法を紹介します。
私たちは、確立された非線形連続撹拌タンク反応器モデルから導出された 2 つのアプリケーションにこの方法を適用します。
コントローラーのパフォーマンスは、システム同定を使用してトレーニングされたモデルを使用する (e)NMPC、および強化学習を使用してトレーニングされたモデルフリーのニューラル ネットワーク コントローラーのパフォーマンスと比較されます。
エンドツーエンドでトレーニングされたモデルは、(e)NMPC のシステム同定を使用してトレーニングされたモデルよりも優れたパフォーマンスを示し、ニューラル ネットワーク コントローラーとは対照的に、(e)NMPC コントローラーは再トレーニングせずに制御設定の変更に反応できることを示します。

要約(オリジナル)

(Economic) nonlinear model predictive control ((e)NMPC) requires dynamic models that are sufficiently accurate and computationally tractable. Data-driven surrogate models for mechanistic models can reduce the computational burden of (e)NMPC; however, such models are typically trained by system identification for maximum prediction accuracy on simulation samples and perform suboptimally in (e)NMPC. We present a method for end-to-end reinforcement learning of Koopman surrogate models for optimal performance as part of (e)NMPC. We apply our method to two applications derived from an established nonlinear continuous stirred-tank reactor model. The controller performance is compared to that of (e)NMPCs utilizing models trained using system identification, and model-free neural network controllers trained using reinforcement learning. We show that the end-to-end trained models outperform those trained using system identification in (e)NMPC, and that, in contrast to the neural network controllers, the (e)NMPC controllers can react to changes in the control setting without retraining.

arxiv情報

著者 Daniel Mayfrank,Alexander Mitsos,Manuel Dahmen
発行日 2024-08-01 17:41:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク