Solving Stabilize-Avoid Optimal Control via Epigraph Form and Deep Reinforcement Learning

要約

自律型ロボット システムのタスクでは、一般に、安全仕様を維持しながら、目的の領域への安定化が必要です。
ただし、従来の手法は拡張性に優れず、特定の問題構造に限定されることが多いため、ダイナミクスが非線形かつ高次元である場合、この多目的問題を解決することは困難です。
この問題に対処するために、無限水平制約付き最適制御問題 (OCP) の解法を介して安定化回避問題を解決する新しいアプローチを提案します。
制約付き OCP をエピグラフ形式に変換し、内側の問題ではポリシーを最適化し、外側の問題では補助変数を最適化する 2 段階の最適化問題を取得します。
次に、オンポリシー深層強化学習アルゴリズムとニューラル ネットワーク回帰を組み合わせた、この定式化のための新しい方法を提案します。
私たちの方法は、従来の方法と比較して、トレーニング中に優れた安定性をもたらし、鞍点検出によって引き起こされる不安定性を回避し、問題構造に関する特定の要件に制限されません。
低次元のおもちゃの例から 17 次元の状態空間を持つ F16 戦闘機に至るまで、さまざまなベンチマーク タスクでアプローチを検証します。
シミュレーション結果は、私たちのアプローチが既存の方法の安全性と同等またはそれを超えるコントローラーを一貫して生み出し、同時により大きな吸引領域からの安定性性能を10倍向上させることを示しています。

要約(オリジナル)

Tasks for autonomous robotic systems commonly require stabilization to a desired region while maintaining safety specifications. However, solving this multi-objective problem is challenging when the dynamics are nonlinear and high-dimensional, as traditional methods do not scale well and are often limited to specific problem structures. To address this issue, we propose a novel approach to solve the stabilize-avoid problem via the solution of an infinite-horizon constrained optimal control problem (OCP). We transform the constrained OCP into epigraph form and obtain a two-stage optimization problem that optimizes over the policy in the inner problem and over an auxiliary variable in the outer problem. We then propose a new method for this formulation that combines an on-policy deep reinforcement learning algorithm with neural network regression. Our method yields better stability during training, avoids instabilities caused by saddle-point finding, and is not restricted to specific requirements on the problem structure compared to more traditional methods. We validate our approach on different benchmark tasks, ranging from low-dimensional toy examples to an F16 fighter jet with a 17-dimensional state space. Simulation results show that our approach consistently yields controllers that match or exceed the safety of existing methods while providing ten-fold increases in stability performance from larger regions of attraction.

arxiv情報

著者 Oswin So,Chuchu Fan
発行日 2023-05-23 15:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.OC パーマリンク