Simultaneous System Identification and Model Predictive Control with No Dynamic Regret

要約

非線形システムの同時システム識別とモデル予測制御のためのアルゴリズムを提供します。
アルゴリズムには、有限時間の近距離保証があり、漸近的に最適な(非因果的)コントローラーに収束します。
特に、このアルゴリズムは、未知の妨害とシステムのダイナミクスがその行動にどのように適応するかを知っている最適な透視コントローラーに対する亜最高の最適性として定義されているサブリンダイナミックの後悔を享受します。
このアルゴリズムは自己監視されており、カーネルヒルベルトスペースの再現で表現できる未知のダイナミクスと妨害を備えたコントロールアフィンシステムに適用されます。
このようなスペースは、システムの状態に適応し、入力を制御することさえできる外部外乱とモデリングエラーをモデル化できます。
たとえば、風力と波の乱れを航空機や海洋車両にモデル化したり、機械系の慣性などのモデルパラメーターを不正確にすることができます。
アルゴリズムは、最初に、未知のダイナミクスまたは乱れを近似するために使用されるランダムなフーリエ機能を生成します。
次に、未知のダイナミクス(または妨害)の現在の学習モデルに基づいて、モデル予測制御を採用します。
未知のダイナミクスのモデルは、システムの制御中に収集されたデータに基づいて最小二乗を使用してオンラインで更新されます。
ハードウェア実験と物理ベースのシミュレーションの両方でアルゴリズムを検証します。
シミュレーションには、(i)不正確なモデルパラメーターにもかかわらず、ポールを直立させることを目的としたカートポールと、(ii)モデルの空力抗力効果にもかかわらず、参照軌道を追跡することを目的とした四角体が含まれます。
ハードウェア実験には、モデルの空力抗力効果、地上効果、風邪度にもかかわらず、円形の軌道を追跡することを目的とした四角体が含まれます。

要約(オリジナル)

We provide an algorithm for the simultaneous system identification and model predictive control of nonlinear systems. The algorithm has finite-time near-optimality guarantees and asymptotically converges to the optimal (non-causal) controller. Particularly, the algorithm enjoys sublinear dynamic regret, defined herein as the suboptimality against an optimal clairvoyant controller that knows how the unknown disturbances and system dynamics will adapt to its actions. The algorithm is self-supervised and applies to control-affine systems with unknown dynamics and disturbances that can be expressed in reproducing kernel Hilbert spaces. Such spaces can model external disturbances and modeling errors that can even be adaptive to the system’s state and control input. For example, they can model wind and wave disturbances to aerial and marine vehicles, or inaccurate model parameters such as inertia of mechanical systems. The algorithm first generates random Fourier features that are used to approximate the unknown dynamics or disturbances. Then, it employs model predictive control based on the current learned model of the unknown dynamics (or disturbances). The model of the unknown dynamics is updated online using least squares based on the data collected while controlling the system. We validate our algorithm in both hardware experiments and physics-based simulations. The simulations include (i) a cart-pole aiming to maintain the pole upright despite inaccurate model parameters, and (ii) a quadrotor aiming to track reference trajectories despite unmodeled aerodynamic drag effects. The hardware experiments include a quadrotor aiming to track a circular trajectory despite unmodeled aerodynamic drag effects, ground effects, and wind disturbances.

arxiv情報

著者 Hongyu Zhou,Vasileios Tzoumas
発行日 2025-04-29 19:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク