Efficient Deep Learning of Robust Policies from MPC using Imitation and Tube-Guided Data Augmentation

要約

模倣学習 (IL) は、モデル予測制御 (MPC) によって提供されるタスク関連のデモンストレーションから計算効率の高いポリシーを生成するために採用されることが増えています。
ただし、一般的に採用されている IL 手法は、多数の MPC デモンストレーションが必要なため、トレーニング時間が長くなり、トレーニング中に経験しない外乱に対する堅牢性が制限されたポリシーを生成するため、データ効率と計算効率が低いことがよくあります。
この研究では、計算コストの高い MPC を、これまでに見たことのない外乱に対して堅牢なディープ ニューラル ネットワーク (DNN) ポリシーに効率的に圧縮する IL 戦略を提案します。
Robust Tube MPC (RTMPC) と呼ばれる MPC の堅牢なバリアントを使用し、コントローラーのプロパティを活用することで、MPC のデモンストレーションの数とトレーニング時間を大幅に削減できる計算効率の高いデータ集約 (DA) メソッドを導入します。
堅牢なポリシーを生成するために必要です。
私たちのアプローチは、研究室/制御環境のシミュレーションやロボットなどの名目上のドメインで収集された単一の MPC デモンストレーションからトレーニングされたポリシーを、これまでに見たことのない制限されたモデル エラーを含む新しいドメインにゼロショットで転送する可能性を開きます。
/摂動。
マルチコプターでの機敏な飛行のために線形および非線形 MPC を使用して実行された数値および実験による評価は、実証効率、訓練時間、訓練中に見られない摂動に対する堅牢性の点で、私たちの方法が IL で一般的に採用されている戦略 (DAgger や DR など) よりも優れていることを示しています。

要約(オリジナル)

Imitation Learning (IL) has been increasingly employed to generate computationally efficient policies from task-relevant demonstrations provided by Model Predictive Control (MPC). However, commonly employed IL methods are often data- and computationally-inefficient, as they require a large number of MPC demonstrations, resulting in long training times, and they produce policies with limited robustness to disturbances not experienced during training. In this work, we propose an IL strategy to efficiently compress a computationally expensive MPC into a Deep Neural Network (DNN) policy that is robust to previously unseen disturbances. By using a robust variant of the MPC, called Robust Tube MPC (RTMPC), and leveraging properties from the controller, we introduce a computationally-efficient Data Aggregation (DA) method that enables a significant reduction of the number of MPC demonstrations and training time required to generate a robust policy. Our approach opens the possibility of zero-shot transfer of a policy trained from a single MPC demonstration collected in a nominal domain, such as a simulation or a robot in a lab/controlled environment, to a new domain with previously-unseen bounded model errors/perturbations. Numerical and experimental evaluations performed using linear and nonlinear MPC for agile flight on a multirotor show that our method outperforms strategies commonly employed in IL (such as DAgger and DR) in terms of demonstration-efficiency, training time, and robustness to perturbations unseen during training.

arxiv情報

著者 Andrea Tagliabue,Jonathan P. How
発行日 2023-06-01 02:05:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク