Bridging the Gaps: Learning Verifiable Model-Free Quadratic Programming Controllers Inspired by Model Predictive Control

要約

このペーパーでは、モデル予測制御 (MPC) からインスピレーションを得た、新しいクラスのパラメーター化コントローラーを紹介します。
このコントローラーは線形 MPC 問題の二次計画法 (QP) ソルバーに似ており、コントローラーのパラメーターはシステム モデルから導出されるのではなく、深層強化学習 (DRL) を介してトレーニングされます。
このアプローチは、検証可能性とパフォーマンス保証の観点から、DRL で使用される多層パーセプトロン (MLP) またはその他の一般的なニューラル ネットワーク アーキテクチャを備えた一般的なコントローラーの制限に対処し、学習されたコントローラーは、MPC に似た永続的な実現可能性や漸近的安定性などの検証可能な特性を備えています。

一方、数値例は、提案されたコントローラが制御性能の点で MPC および MLP コントローラと経験的に一致し、モデリングの不確実性とノイズに対して優れたロバスト性を備えていることを示しています。
さらに、提案されたコントローラーは MPC と比較して計算効率が大幅に向上し、MLP コントローラーよりも学習に必要なパラメーターが少なくなります。
車両のドリフト操縦タスクに関する実際の実験では、ロボット工学やその他の要求の厳しい制御タスクに対するこれらのコントローラーの可能性が実証されています。

要約(オリジナル)

In this paper, we introduce a new class of parameterized controllers, drawing inspiration from Model Predictive Control (MPC). The controller resembles a Quadratic Programming (QP) solver of a linear MPC problem, with the parameters of the controller being trained via Deep Reinforcement Learning (DRL) rather than derived from system models. This approach addresses the limitations of common controllers with Multi-Layer Perceptron (MLP) or other general neural network architecture used in DRL, in terms of verifiability and performance guarantees, and the learned controllers possess verifiable properties like persistent feasibility and asymptotic stability akin to MPC. On the other hand, numerical examples illustrate that the proposed controller empirically matches MPC and MLP controllers in terms of control performance and has superior robustness against modeling uncertainty and noises. Furthermore, the proposed controller is significantly more computationally efficient compared to MPC and requires fewer parameters to learn than MLP controllers. Real-world experiments on vehicle drift maneuvering task demonstrate the potential of these controllers for robotics and other demanding control tasks.

arxiv情報

著者 Yiwen Lu,Zishuo Li,Yihan Zhou,Na Li,Yilin Mo
発行日 2023-12-26 16:31:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY, math.OC パーマリンク