要約
モデル予測制御 (MPC) は、動的システムを制御するための強力な最適化ベースのアプローチです。
ただし、オンライン最適化の計算の複雑さは、組み込みデバイスでは問題になる可能性があります。
特に、固定の制御周波数を保証する必要がある場合。
そこで、以前の研究では、MPC ポリシーをニューラル ネットワークで近似する模倣学習 (IL) を使用して計算負荷を軽減することが提案されています。
この作業では、代わりに MPC の計画された軌道全体を学習します。
新しいニューラル ネットワーク アーキテクチャ PlanNetX と、MPC のパラメータ化された最適な制御構造を活用する状態軌跡に基づく単純な損失関数の組み合わせを導入します。
私たちは、合成シナリオと実際のデータから派生したシナリオを使用して、縦断的プランナーを学習し、CommonRoad シミュレーターで広範にベンチマークすることにより、自動運転のコンテキストでアプローチを検証します。
私たちの実験結果は、開ループ MPC 軌跡を高精度で学習できると同時に、学習した制御ポリシーの閉ループ パフォーマンスを動作クローニングなどの他のベースラインよりも向上できることを示しています。
要約(オリジナル)
Model predictive control (MPC) is a powerful, optimization-based approach for controlling dynamical systems. However, the computational complexity of online optimization can be problematic on embedded devices. Especially, when we need to guarantee fixed control frequencies. Thus, previous work proposed to reduce the computational burden using imitation learning (IL) approximating the MPC policy by a neural network. In this work, we instead learn the whole planned trajectory of the MPC. We introduce a combination of a novel neural network architecture PlanNetX and a simple loss function based on the state trajectory that leverages the parameterized optimal control structure of the MPC. We validate our approach in the context of autonomous driving by learning a longitudinal planner and benchmarking it extensively in the CommonRoad simulator using synthetic scenarios and scenarios derived from real data. Our experimental results show that we can learn the open-loop MPC trajectory with high accuracy while improving the closed-loop performance of the learned control policy over other baselines like behavior cloning.
arxiv情報
著者 | Jasper Hoffmann,Diego Fernandez,Julien Brosseit,Julian Bernhard,Klemens Esterle,Moritz Werling,Michael Karg,Joschka Boedecker |
発行日 | 2024-04-29 16:52:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google