Simultaneous System Identification and Model Predictive Control with No Dynamic Regret

要約

非線形システムのシステム同定とモデル予測制御を同時に行うアルゴリズムを提供する。このアルゴリズムは有限時間のニアオプティマリティ保証を持ち、漸近的に最適(非因果的)コントローラに収束する。特に、本アルゴリズムは、未知の外乱とシステムダイナミクスがその行動にどのように適応するかを知っている最適な千里眼コントローラに対する最適度として定義されるサブリニアダイナミックレグリーメントを享受する。本アルゴリズムは自己教師型であり、再生カーネルヒルベルト空間で表現可能な未知のダイナミクスと外乱を持つ制御アフィンシステムに適用される。このような空間は、外乱やモデル化誤差をモデル化することができ、システムの状態や制御入力に適応することもできる。例えば、航空機や船舶に対する風や波の擾乱や、機械システムの慣性のような不正確なモデルパラメータをモデル化することができる。このアルゴリズムは、まず、未知のダイナミクスや外乱を近似するために使用されるランダムなフーリエ特徴を生成する。次に、未知のダイナミクス(または外乱)の現在学習されたモデルに基づいて、モデル予測制御を採用する。未知のダイナミクスのモデルは、システムを制御している間に収集されたデータに基づいて、最小二乗法を用いてオンラインで更新される。本アルゴリズムを、ハードウェア実験と物理ベースのシミュレーションの両方で検証する。シミュレーションには、(i)不正確なモデルパラメータにもかかわらず、ポールを直立に維持することを目的としたカートポール、(ii)モデル化されていない空気抵抗効果にもかかわらず、基準軌道を追跡することを目的としたクアドローターが含まれる。ハードウェア実験には、モデル化されていない空気抵抗効果、地面効果、風擾乱にもかかわらず円軌道を追跡することを目的としたクアドローターが含まれる。

要約(オリジナル)

We provide an algorithm for the simultaneous system identification and model predictive control of nonlinear systems. The algorithm has finite-time near-optimality guarantees and asymptotically converges to the optimal (non-causal) controller. Particularly, the algorithm enjoys sublinear dynamic regret, defined herein as the suboptimality against an optimal clairvoyant controller that knows how the unknown disturbances and system dynamics will adapt to its actions. The algorithm is self-supervised and applies to control-affine systems with unknown dynamics and disturbances that can be expressed in reproducing kernel Hilbert spaces. Such spaces can model external disturbances and modeling errors that can even be adaptive to the system’s state and control input. For example, they can model wind and wave disturbances to aerial and marine vehicles, or inaccurate model parameters such as inertia of mechanical systems. The algorithm first generates random Fourier features that are used to approximate the unknown dynamics or disturbances. Then, it employs model predictive control based on the current learned model of the unknown dynamics (or disturbances). The model of the unknown dynamics is updated online using least squares based on the data collected while controlling the system. We validate our algorithm in both hardware experiments and physics-based simulations. The simulations include (i) a cart-pole aiming to maintain the pole upright despite inaccurate model parameters, and (ii) a quadrotor aiming to track reference trajectories despite unmodeled aerodynamic drag effects. The hardware experiments include a quadrotor aiming to track a circular trajectory despite unmodeled aerodynamic drag effects, ground effects, and wind disturbances.

arxiv情報

著者 Hongyu Zhou,Vasileios Tzoumas
発行日 2024-07-04 20:10:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク