End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control

要約

(経済的) 非線形モデル予測制御 ((e)NMPC) には、すべての関連する状態空間領域で十分に正確な動的システム モデルが必要です。
これらのモデルは、リアルタイムの扱いやすさを確保するために十分に計算コストが低くなければなりません。
機構モデルのデータ駆動型サロゲート モデルを使用すると、(e)NMPC の計算負荷を軽減できます。
ただし、このようなモデルは通常、シミュレーション サンプルの平均予測精度を最大化するためにシステム識別によってトレーニングされ、実際の (e)NMPC の一部として最適に動作しません。
我々は、(e)NMPC アプリケーションで最適なパフォーマンスを実現するための動的サロゲート モデルのエンドツーエンド強化学習の方法を提案します。その結果、制御パフォーマンスと計算需要の間で好ましいバランスをとる予測コントローラーが実現します。
確立された非線形連続撹拌タンク反応器モデルから導出された 2 つのアプリケーションでメソッドを検証します。
コントローラーのパフォーマンスを、一般的な最大予測精度パラダイムによってトレーニングされたモデルを利用した MPC と、強化学習を使用してトレーニングされたモデルフリーのニューラル ネットワーク コントローラーのパフォーマンスと比較します。
私たちの方法は、モデルフリーのニューラル ネットワーク コントローラーのパフォーマンスに匹敵し、システム同定から得られたモデルよりも一貫して優れていることを示します。
さらに、MPC ポリシーが再トレーニングせずに制御設定の変更に反応できることを示します。

要約(オリジナル)

(Economic) nonlinear model predictive control ((e)NMPC) requires dynamic system models that are sufficiently accurate in all relevant state-space regions. These models must also be computationally cheap enough to ensure real-time tractability. Data-driven surrogate models for mechanistic models can be used to reduce the computational burden of (e)NMPC; however, such models are typically trained by system identification for maximum average prediction accuracy on simulation samples and perform suboptimally as part of actual (e)NMPC. We present a method for end-to-end reinforcement learning of dynamic surrogate models for optimal performance in (e)NMPC applications, resulting in predictive controllers that strike a favorable balance between control performance and computational demand. We validate our method on two applications derived from an established nonlinear continuous stirred-tank reactor model. We compare the controller performance to that of MPCs utilizing models trained by the prevailing maximum prediction accuracy paradigm, and model-free neural network controllers trained using reinforcement learning. We show that our method matches the performance of the model-free neural network controllers while consistently outperforming models derived from system identification. Additionally, we show that the MPC policies can react to changes in the control setting without retraining.

arxiv情報

著者 Daniel Mayfrank,Alexander Mitsos,Manuel Dahmen
発行日 2023-08-28 15:38:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク