Simultaneous System Identification and Model Predictive Control with No Dynamic Regret

要約

非線形システムのシステム同定とモデル予測制御を同時に行うためのアルゴリズムを提供します。
このアルゴリズムには有限時間の最適に近い保証があり、最適な (非因果的な) コントローラーに漸近的に収束します。
特に、このアルゴリズムは、未知の外乱とシステムダイナミクスがその動作にどのように適応するかを知っている最適な透視コントローラーに対する準最適性として本明細書で定義されるサブリニア動的リグレスを享受します。
このアルゴリズムは自己監視型であり、カーネル ヒルベルト空間の再現で表現できる未知のダイナミクスや外乱を伴う制御アフィン システムに適用されます。
このような空間は、システムの状態や制御入力にも適応できる外部擾乱やモデル化エラーをモデル化できます。
たとえば、航空機や船舶に対する風や波の外乱をモデル化したり、機械システムの慣性などの不正確なモデル パラメーターをモデル化したりできます。
このアルゴリズムはまず、未知のダイナミクスや外乱を近似するために使用されるランダムなフーリエ特徴を生成します。
次に、未知のダイナミクス (または外乱) の現在の学習済みモデルに基づくモデル予測制御を採用します。
未知のダイナミクスのモデルは、システムの制御中に収集されたデータに基づいて最小二乗法を使用してオンラインで更新されます。
私たちはハードウェア実験と物理ベースのシミュレーションの両方でアルゴリズムを検証します。
シミュレーションには、(i) 不正確なモデル パラメーターにもかかわらずポールを直立に維持することを目的としたカート ポールと、(ii) モデル化されていない空気力学的抵抗効果にもかかわらず基準軌道を追跡することを目的としたクアローターが含まれます。
ハードウェア実験には、モデル化されていない空力抵抗効果、地面効果、風の外乱にもかかわらず、円形の軌道を追跡することを目的としたクワッドローターが含まれます。

要約(オリジナル)

We provide an algorithm for the simultaneous system identification and model predictive control of nonlinear systems. The algorithm has finite-time near-optimality guarantees and asymptotically converges to the optimal (non-causal) controller. Particularly, the algorithm enjoys sublinear dynamic regret, defined herein as the suboptimality against an optimal clairvoyant controller that knows how the unknown disturbances and system dynamics will adapt to its actions. The algorithm is self-supervised and applies to control-affine systems with unknown dynamics and disturbances that can be expressed in reproducing kernel Hilbert spaces. Such spaces can model external disturbances and modeling errors that can even be adaptive to the system’s state and control input. For example, they can model wind and wave disturbances to aerial and marine vehicles, or inaccurate model parameters such as inertia of mechanical systems. The algorithm first generates random Fourier features that are used to approximate the unknown dynamics or disturbances. Then, it employs model predictive control based on the current learned model of the unknown dynamics (or disturbances). The model of the unknown dynamics is updated online using least squares based on the data collected while controlling the system. We validate our algorithm in both hardware experiments and physics-based simulations. The simulations include (i) a cart-pole aiming to maintain the pole upright despite inaccurate model parameters, and (ii) a quadrotor aiming to track reference trajectories despite unmodeled aerodynamic drag effects. The hardware experiments include a quadrotor aiming to track a circular trajectory despite unmodeled aerodynamic drag effects, ground effects, and wind disturbances.

arxiv情報

著者 Hongyu Zhou,Vasileios Tzoumas
発行日 2024-11-24 21:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク