DiffTune-MPC: Closed-Loop Learning for Model Predictive Control

要約

モデル予測制御 (MPC) は、システムが持つ可能性のある制約を組み込みながらシステムの将来の動作を予測できる機能のため、ロボット工学や自律システムの多くのプラットフォームに適用されています。
MPC コントローラーを備えたシステムのパフォーマンスを向上させるために、MPC のコスト関数を手動で調整できます。
ただし、パラメータ空間の次元が高くなる可能性があることや、MPC の開ループ コスト関数と全体的な閉ループ パフォーマンス メトリック関数との間に潜在的な差があるため、これは困難になる可能性があります。
この論文では、閉ループ方式で MPC のコスト関数を学習するための新しい学習方法である DiffTune-MPC を紹介します。
提案されたフレームワークは、パフォーマンス評価の時間間隔と MPC の計画期間が異なる長さを持つシナリオと互換性があります。
我々は、MPC の解析的勾配を許容する解法をもつ補助問題を示し、さまざまな MPC 設定におけるその変化について議論します。
シミュレーション結果は、DiffTune-MPC の機能を実証し、学習に対する制約 (作動制限からの) の影響を示しています。

要約(オリジナル)

Model predictive control (MPC) has been applied to many platforms in robotics and autonomous systems for its capability to predict a system’s future behavior while incorporating constraints that a system may have. To enhance the performance of a system with an MPC controller, one can manually tune the MPC’s cost function. However, it can be challenging due to the possibly high dimension of the parameter space as well as the potential difference between the open-loop cost function in MPC and the overall closed-loop performance metric function. This paper presents DiffTune-MPC, a novel learning method, to learn the cost function of an MPC in a closed-loop manner. The proposed framework is compatible with the scenario where the time interval for performance evaluation and MPC’s planning horizon have different lengths. We show the auxiliary problem whose solution admits the analytical gradients of MPC and discuss its variations in different MPC settings. Simulation results demonstrate the capability of DiffTune-MPC and illustrate the influence of constraints (from actuation limits) on learning.

arxiv情報

著者 Ran Tao,Sheng Cheng,Xiaofeng Wang,Shenlong Wang,Naira Hovakimyan
発行日 2023-12-18 17:48:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク