Learning to Control under Uncertainty with Data-Based Iterative Linear Quadratic Regulator

要約

この論文では、動的システムのプロセスおよびセンシングの不確実性の下での学習から制御までの問題を研究します。
以前の研究では、部分状態観測を伴う高次元動的システムの閉ループ フィードバック制御を設計するために、反復線形二次レギュレーター (iLQR) のデータに基づいた一般化を開発しました。
この方法では、実際のアプリケーションでは現実的ではない完璧なシミュレーションのロールアウトが必要でした。
この研究では、この方法を簡単に紹介し、プロセスおよびセンシングの不確実性の下でのその有効性を探ります。
システムのダイナミクスがノイズによって破損しているが、測定が完璧である完全に観察されたケースでは、それでも全体的な最小値に収束することを証明します。
ただし、システム内にプロセス ノイズと測定ノイズの両方が存在する部分的に観察されたケースでは、この方法は偏った「最適値」に収束します。
したがって、真の最適値を取得するには、複数のロールアウトを平均する必要があります。
この解析は、上記のケースでシミュレートされた 2 つの非線形ロボットの例で検証されます。

要約(オリジナル)

This paper studies the learning-to-control problem under process and sensing uncertainties for dynamical systems. In our previous work, we developed a data-based generalization of the iterative linear quadratic regulator (iLQR) to design closed-loop feedback control for high-dimensional dynamical systems with partial state observation. This method required perfect simulation rollouts which are not realistic in real applications. In this work, we briefly introduce this method and explore its efficacy under process and sensing uncertainties. We prove that in the fully observed case where the system dynamics are corrupted with noise but the measurements are perfect, it still converges to the global minimum. However, in the partially observed case where both process and measurement noise exist in the system, this method converges to a biased ‘optimum’. Thus multiple rollouts need to be averaged to retrieve the true optimum. The analysis is verified in two nonlinear robotic examples simulated in the above cases.

arxiv情報

著者 Ran Wang,Raman Goyal,Suman Chakravorty
発行日 2023-11-08 17:39:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.DS, math.OC パーマリンク