Primal-Dual iLQR

要約

制約のない離散時間最適制御問題を解決するための新しいアルゴリズムを紹介します。
私たちの手法は直接複数射撃アプローチに従い、$\ell_2$ 拡張ラグランジュ主双対メリット関数とともに SQP 手法を適用することで構成されています。
LQR アルゴリズムを使用して、主双対 Newton-KK​​T システムを効率的に解きます。
私たちのアルゴリズムは NPSQP を特殊化したものであるため、グローバル コンバージェンス、高速ローカル コンバージェンス、2 次補正や次元拡張の必要性の欠如などの一般的な特性を継承し、acados、ALTRO、GNMS などの既存の直接複数シューティング アプローチを改善しています。
、FATROP、およびFDDP。
私たちのアルゴリズムによって提起される LQR 形状の部分問題の解決策は、ステージ、状態、および制御の数で対数的に時間内に実行するように並列化できます。
さらに、私たちの方法は非線形ダイナミクスの逐次的なロールアウトを回避するため、行検索の反復ごとに $O(1)$ の並列時間で実行できます。
したがって、この論文では、非線形離散時間最適制御問題を解決するための、実用的で、理論的に健全で、高度に並列化可能な (GPU などを使用した) 方法を提供します。
このアルゴリズムのオープンソース JAX 実装は、GitHub (joaospinto/primal_dual_ilqr) にあります。

要約(オリジナル)

We introduce a new algorithm for solving unconstrained discrete-time optimal control problems. Our method follows a direct multiple shooting approach, and consists of applying the SQP method together with an $\ell_2$ augmented Lagrangian primal-dual merit function. We use the LQR algorithm to efficiently solve the primal-dual Newton-KKT system. As our algorithm is a specialization of NPSQP, it inherits its generic properties, including global convergence, fast local convergence, and the lack of need for second order corrections or dimension expansions, improving on existing direct multiple shooting approaches such as acados, ALTRO, GNMS, FATROP, and FDDP. The solutions of the LQR-shaped subproblems posed by our algorithm can be be parallelized to run in time logarithmic in the number of stages, states, and controls. Moreover, as our method avoids sequential rollouts of the nonlinear dynamics, it can run in $O(1)$ parallel time per line search iteration. Therefore, this paper provides a practical, theoretically sound, and highly parallelizable (for example, with a GPU) method for solving nonlinear discrete-time optimal control problems. An open-source JAX implementation of this algorithm can be found on GitHub (joaospinto/primal_dual_ilqr).

arxiv情報

著者 João Sousa-Pinto,Dominique Orban
発行日 2024-07-01 06:15:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 49M15, cs.RO, G.1.6, math.OC パーマリンク