Convergent NMPC-based Reinforcement Learning Using Deep Expected Sarsa and Nonlinear Temporal Difference Learning

要約

この論文では、NMPCスキームの最適な重みを学習するために、元の強化学習(RL)メソッドを使用して、学習ベースの非線形モデル予測コントローラー(NMPC)を提示します。
コントローラーは、通常二次NMPCで取得される後続のアクション値関数がニューラルネットワーク(NN)で近似される、予想される深いSARSAの現在のアクション値関数として使用されます。
既存のメソッドに関しては、NNの入力にNMPCの学習パラメーターの現在の値を追加して、ネットワークがアクション値関数を近似し、学習パフォーマンスを安定させることができます。
さらに、NNを使用すると、閉ループのパフォーマンスに影響を与えることなく、リアルタイムの計算負荷がほぼ半分になります。
さらに、関数近似に非線形性が存在する場合、潜在的なパラメーターの発散と不安定性の問題を克服するために、予想されるSARSA RL法の関数近似として、勾配の時間差法とパラメータ化されたNMPCを組み合わせます。
シミュレーション結果は、提案されたアプローチが不安定な問題のない局所的に最適なソリューションに収束することを示しています。

要約(オリジナル)

In this paper, we present a learning-based nonlinear model predictive controller (NMPC) using an original reinforcement learning (RL) method to learn the optimal weights of the NMPC scheme. The controller is used as the current action-value function of a deep Expected Sarsa where the subsequent action-value function, usually obtained with a secondary NMPC, is approximated with a neural network (NN). With respect to existing methods, we add to the NN’s input the current value of the NMPC’s learned parameters so that the network is able to approximate the action-value function and stabilize the learning performance. Additionally, with the use of the NN, the real-time computational burden is approximately halved without affecting the closed-loop performance. Furthermore, we combine gradient temporal difference methods with parametrized NMPC as function approximator of the Expected Sarsa RL method to overcome the potential parameters divergence and instability issues when nonlinearities are present in the function approximation. The simulation result shows that the proposed approach converges to a locally optimal solution without instability problems.

arxiv情報

著者 Amine Salaje,Thomas Chevet,Nicolas Langlois
発行日 2025-02-07 13:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク