DiffTune-MPC: Closed-Loop Learning for Model Predictive Control

要約

モデル予測制御(MPC)は、システムが持つ可能性のある制約を取り入れながら、システムの将来の挙動を予測する能力を持つため、ロボット工学や自律システムの多くのプラットフォームに適用されている。MPCコントローラを用いてシステムの性能を向上させるには、MPCのコスト関数を手動で調整すればよい。しかし、MPCのオープンループコスト関数とクローズドループパフォーマンスメトリック関数の潜在的な違いだけでなく、パラメータ空間の次元が高い可能性があるため、これは困難なことです。本稿では、MPCのコスト関数をクローズドループで学習するための新しい学習手法DiffTune-MPCを提案する。提案するフレームワークは、性能評価の時間間隔とMPCの計画水平線の長さが異なるシナリオに適合する。MPCの解析的勾配を認める解を持つ補助問題を示し、逐次2次計画法を用いて解かれる非線形MPCを含む、異なるMPC設定におけるそのバリエーションについて議論する。シミュレーション結果は、DiffTune-MPCの学習能力と、学習されたMPCパラメータの汎化能力を示す。

要約(オリジナル)

Model predictive control (MPC) has been applied to many platforms in robotics and autonomous systems for its capability to predict a system’s future behavior while incorporating constraints that a system may have. To enhance the performance of a system with an MPC controller, one can manually tune the MPC’s cost function. However, it can be challenging due to the possibly high dimension of the parameter space as well as the potential difference between the open-loop cost function in MPC and the overall closed-loop performance metric function. This paper presents DiffTune-MPC, a novel learning method, to learn the cost function of an MPC in a closed-loop manner. The proposed framework is compatible with the scenario where the time interval for performance evaluation and MPC’s planning horizon have different lengths. We show the auxiliary problem whose solution admits the analytical gradients of MPC and discuss its variations in different MPC settings, including nonlinear MPCs that are solved using sequential quadratic programming. Simulation results demonstrate the learning capability of DiffTune-MPC and the generalization capability of the learned MPC parameters.

arxiv情報

著者 Ran Tao,Sheng Cheng,Xiaofeng Wang,Shenlong Wang,Naira Hovakimyan
発行日 2024-07-04 23:38:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク