要約
最適制御(OC)は、複雑な力学系を制御するための効果的なアプローチである。しかし、最適制御におけるコントローラのパラメータ化と学習の典型的なアプローチは、データを収集し、それをニューラルネットワークに当てはめるという場当たり的なものであった。この2段階のアプローチは、最適性や時変条件などの重要な制約を見落としてしまう可能性がある。我々は、OC問題を暗黙的に解きながら、同時にリアプノフ関数または値関数を学習する、統一された関数優先のフレームワークを導入する。我々は、ハミルトン-ヤコビ-ベルマン(HJB)制約とその緩和に基づいて、時間変化する価値関数とリアプノフ関数を学習する2つの数学的プログラムを提案する。線形および非線形制御アフィン問題に対する我々のアプローチの有効性を示す。提案手法は、コンパクトな初期条件集合に対して、最適に近い軌道を生成し、リアプノフ条件を保証することができる。さらに、我々の手法をSoft Actor Critic (SAC)やProximal Policy Optimisation (PPO)と比較する。この比較において、我々はタスクコストで劣ることはなく、最良の場合にはSACとPPOをそれぞれ73倍と22倍上回る。
要約(オリジナル)
Optimal control (OC) is an effective approach to controlling complex dynamical systems. However, typical approaches to parameterising and learning controllers in optimal control have been ad-hoc, collecting data and fitting it to neural networks. This two-step approach can overlook crucial constraints such as optimality and time-varying conditions. We introduce a unified, function-first framework that simultaneously learns Lyapunov or value functions while implicitly solving OC problems. We propose two mathematical programs based on the Hamilton-Jacobi-Bellman (HJB) constraint and its relaxation to learn time varying value and Lyapunov functions. We show the effectiveness of our approach on linear and nonlinear control-affine problems. The proposed methods are able to generate near optimal trajectories and guarantee Lyapunov condition over a compact set of initial conditions. Furthermore We compare our methods to Soft Actor Critic (SAC) and Proximal Policy Optimisation (PPO). In this comparison, we never underperform in task cost and, in the best cases, outperform SAC and PPO by a factor of 73 and 22, respectively.
arxiv情報
著者 | Daniel Layeghi,Steve Tonneau,Michael Mistry |
発行日 | 2024-02-05 12:11:31+00:00 |
arxivサイト | arxiv_id(pdf) |