How to Learn and Generalize From Three Minutes of Data: Physics-Constrained and Uncertainty-Aware Neural Stochastic Differential Equations

要約

ニューラル確率微分方程式 (SDE)、つまりドリフト項と拡散項の両方がニューラル ネットワークによってパラメーター化される SDE を使用して、制御されたダイナミクス モデルを学習するためのフレームワークとアルゴリズムを紹介します。
私たちは、帰納的バイアスとして先験的な物理学の知識を活用するためにドリフト項を構築し、学習されたモデルの予測における不確実性の距離を考慮した推定値を表すように拡散項を設計します。これは、それらに近い状態で評価されるとき、システムの基礎となる確率論と一致します。
トレーニング データセットから得られ、トレーニング レジームを超えた状態で評価された場合に、高度に確率的なダイナミクスを予測します。
提案されたニューラル SDE は、モデル予測制御アルゴリズムで使用するのに十分な速さで評価でき、またモデルベースの強化学習のシミュレーターとして使用することもできます。
さらに、状態空間の限られた領域をカバーする小さなデータセットでトレーニングされた場合でも、長い期間にわたって正確な予測を行います。
私たちは、シミュレートされたロボット システムでの実験や、ヘキサコプターの飛行ダイナミクスのモデル化と制御にそれらを使用することによって、これらの機能を実証します。手動で収集されたわずか 3 分間の飛行データを使用してトレーニングされたニューラル SDE により、正確に追跡するモデルベースの制御ポリシーが得られます。
ヘキサコプターの速度とオイラー角を、トレーニング データセットで観察された最大値のほぼ 2 倍に押し上げる攻撃的な軌道。

要約(オリジナル)

We present a framework and algorithms to learn controlled dynamics models using neural stochastic differential equations (SDEs) — SDEs whose drift and diffusion terms are both parametrized by neural networks. We construct the drift term to leverage a priori physics knowledge as inductive bias, and we design the diffusion term to represent a distance-aware estimate of the uncertainty in the learned model’s predictions — it matches the system’s underlying stochasticity when evaluated on states near those from the training dataset, and it predicts highly stochastic dynamics when evaluated on states beyond the training regime. The proposed neural SDEs can be evaluated quickly enough for use in model predictive control algorithms, or they can be used as simulators for model-based reinforcement learning. Furthermore, they make accurate predictions over long time horizons, even when trained on small datasets that cover limited regions of the state space. We demonstrate these capabilities through experiments on simulated robotic systems, as well as by using them to model and control a hexacopter’s flight dynamics: A neural SDE trained using only three minutes of manually collected flight data results in a model-based control policy that accurately tracks aggressive trajectories that push the hexacopter’s velocity and Euler angles to nearly double the maximum values observed in the training dataset.

arxiv情報

著者 Franck Djeumou,Cyrus Neary,Ufuk Topcu
発行日 2023-10-15 23:55:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク