Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control

要約

モデルベース制御では、複雑で動的な環境においてロボットを正確かつ安全に制御するために、システムダイナミクスの正確なモデルが必要です。さらに、動作条件に変動がある場合、ダイナミクスの変化を補正するためにモデルを継続的に改良する必要がある。本論文では、非線形ロボットシステムのダイナミクスを能動的にモデル化する自己教師付き学習アプローチを紹介する。我々は、過去の経験からのオフライン学習と、現在のロボットと未知の環境との相互作用からのオンライン学習を組み合わせる。この2つの要素により、サンプル効率の高い適応的な学習プロセスが可能となり、学習分布と大きく異なる動作体制においても、リアルタイムでモデルのダイナミクスを正確に推測することができる。さらに、学習されたダイナミクスのアレータ(データ)不確実性をヒューリスティックに条件付ける、不確実性を考慮したモデル予測制御器を設計する。この制御器は、(i)制御性能を最適化し、(ii)オンライン学習サンプル収集の効率を改善する最適な制御動作を能動的に選択する。我々は、クワッドローターシステムを用いた一連の困難な実世界実験を通して、本手法の有効性を実証する。本手法は、未知の飛行条件に一貫して適応することで、高い回復力と汎化能力を示すとともに、古典的制御や適応制御のベースラインを大幅に上回る。

要約(オリジナル)

Model-based control requires an accurate model of the system dynamics for precisely and safely controlling the robot in complex and dynamic environments. Moreover, in the presence of variations in the operating conditions, the model should be continuously refined to compensate for dynamics changes. In this paper, we present a self-supervised learning approach that actively models the dynamics of nonlinear robotic systems. We combine offline learning from past experience and online learning from current robot interaction with the unknown environment. These two ingredients enable a highly sample-efficient and adaptive learning process, capable of accurately inferring model dynamics in real-time even in operating regimes that greatly differ from the training distribution. Moreover, we design an uncertainty-aware model predictive controller that is heuristically conditioned to the aleatoric (data) uncertainty of the learned dynamics. This controller actively chooses the optimal control actions that (i) optimize the control performance and (ii) improve the efficiency of online learning sample collection. We demonstrate the effectiveness of our method through a series of challenging real-world experiments using a quadrotor system. Our approach showcases high resilience and generalization capabilities by consistently adapting to unseen flight conditions, while it significantly outperforms classical and adaptive control baselines.

arxiv情報

著者 Alessandro Saviolo,Jonathan Frey,Abhishek Rathod,Moritz Diehl,Giuseppe Loianno
発行日 2024-08-31 14:15:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク