Revisiting Implicit Differentiation for Learning Problems in Optimal Control

要約

この論文では、陰関数定理 (IFT) を使用した、非凸の制約付き離散時間最適制御 (COC) 問題から生じる最適軌道を通じて微分する新しい方法を提案します。
これまでの研究では、軌道導関数に対する微分カルーシュ・キューン・タッカー (KKT) システムを解き、補助的な線形二次レギュレーター (LQR) 問題を解くことでこれを効率的に達成しました。
対照的に、(微分) KKT システムのラグランジュ乗数項に変数除去を適用することで生じる行列方程式を直接評価します。
結果として得られる方程式内の項の構造を適切に考慮することにより、軌跡の導関数がタイムステップ数に応じて線形にスケールされることを示します。
さらに、私たちのアプローチは、以前の研究と比較して、簡単な並列化、モデルサイズによるスケーラビリティの大幅な向上、ベクトルヤコビ積の直接計算、および数値安定性の向上を可能にします。
追加の貢献として、我々は以前の研究を統合し、IFT を使用した軌道導関数の計算がタイムステップ数に応じて二次的にスケールされるという主張に対処しました。
私たちは合成ベンチマークと、6-DoF 操縦クアローターや 6-DoF ロケット動力着陸などのデモンストレーション ベンチマークから学習した 4 つの困難なベンチマークの両方でメソッドを評価します。

要約(オリジナル)

This paper proposes a new method for differentiating through optimal trajectories arising from non-convex, constrained discrete-time optimal control (COC) problems using the implicit function theorem (IFT). Previous works solve a differential Karush-Kuhn-Tucker (KKT) system for the trajectory derivative, and achieve this efficiently by solving an auxiliary Linear Quadratic Regulator (LQR) problem. In contrast, we directly evaluate the matrix equations which arise from applying variable elimination on the Lagrange multiplier terms in the (differential) KKT system. By appropriately accounting for the structure of the terms within the resulting equations, we show that the trajectory derivatives scale linearly with the number of timesteps. Furthermore, our approach allows for easy parallelization, significantly improved scalability with model size, direct computation of vector-Jacobian products and improved numerical stability compared to prior works. As an additional contribution, we unify prior works, addressing claims that computing trajectory derivatives using IFT scales quadratically with the number of timesteps. We evaluate our method on a both synthetic benchmark and four challenging, learning from demonstration benchmarks including a 6-DoF maneuvering quadrotor and 6-DoF rocket powered landing.

arxiv情報

著者 Ming Xu,Timothy Molloy,Stephen Gould
発行日 2023-10-23 00:51:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク