Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control

要約

モデルベースの制御では、複雑で動的な環境でロボットを正確かつ安全に制御するために、システム ダイナミクスの正確なモデルが必要です。
さらに、動作条件に変動がある場合、ダイナミクスの変化を補償するためにモデルを継続的に改良する必要があります。
この論文では、非線形ロボット システムのダイナミクスをアクティブにモデル化する自己教師あり学習アプローチを紹介します。
過去の経験からのオフライン学習と、未知の環境との現在のロボットの相互作用からのオンライン学習を組み合わせます。
これら 2 つの要素により、サンプル効率が高く適応的な学習プロセスが可能になり、トレーニング分布とは大きく異なる運用状況でもモデルのダイナミクスをリアルタイムで正確に推論できます。
さらに、学習されたダイナミクスの偶然の (データ) 不確実性にヒューリスティックに条件付けされた、不確実性を認識したモデル予測コントローラーを設計します。
このコントローラーは、(i) 制御パフォーマンスを最適化し、(ii) オンライン学習サンプル収集の効率を向上させる最適な制御アクションをアクティブに選択します。
クアッドローター システムを使用した一連の挑戦的な現実世界の実験を通じて、私たちの方法の有効性を実証します。
私たちのアプローチは、目に見えない飛行条件に一貫して適応することにより、高い回復力と汎化機能を実証すると同時に、従来の制御ベースラインや適応制御ベースラインを大幅に上回ります。

要約(オリジナル)

Model-based control requires an accurate model of the system dynamics for precisely and safely controlling the robot in complex and dynamic environments. Moreover, in the presence of variations in the operating conditions, the model should be continuously refined to compensate for dynamics changes. In this paper, we present a self-supervised learning approach that actively models the dynamics of nonlinear robotic systems. We combine offline learning from past experience and online learning from current robot interaction with the unknown environment. These two ingredients enable a highly sample-efficient and adaptive learning process, capable of accurately inferring model dynamics in real-time even in operating regimes that greatly differ from the training distribution. Moreover, we design an uncertainty-aware model predictive controller that is heuristically conditioned to the aleatoric (data) uncertainty of the learned dynamics. This controller actively chooses the optimal control actions that (i) optimize the control performance and (ii) improve the efficiency of online learning sample collection. We demonstrate the effectiveness of our method through a series of challenging real-world experiments using a quadrotor system. Our approach showcases high resilience and generalization capabilities by consistently adapting to unseen flight conditions, while it significantly outperforms classical and adaptive control baselines.

arxiv情報

著者 Alessandro Saviolo,Jonathan Frey,Abhishek Rathod,Moritz Diehl,Giuseppe Loianno
発行日 2023-07-24 11:13:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク