Neural Lyapunov and Optimal Control

要約

最適制御 (OC) は、複雑な動的システムを制御するための効果的なアプローチです。
ただし、最適な制御でコントローラーをパラメーター化し学習するための一般的なアプローチは、データを収集してニューラル ネットワークに適合させるアドホックなものでした。
この 2 段階のアプローチでは、最適性や時間とともに変化する条件などの重要な制約が見落とされる可能性があります。
暗黙的に OC 問題を解決しながら、リアプノフ関数または値関数を同時に学習する、統一された関数優先フレームワークを導入します。
時変値とリアプノフ関数を学習するために、Hamilton-Jacobi-Bellman (HJB) 制約とその緩和に基づいた 2 つの数学的プログラムを提案します。
線形および非線形の制御アフィン問題に対するアプローチの有効性を示します。
提案された方法は、最適に近い軌道を生成し、初期条件のコンパクトなセットにわたってリアプノフ条件を保証することができます。
さらに、私たちの手法を Soft Actor Critic (SAC) および Proximal Policy Optimization (PPO) と比較します。
この比較では、タスクのコストが決してパフォーマンスを下回ることはなく、最良のケースでは、SAC と PPO をそれぞれ 73 倍と 22 倍上回っています。

要約(オリジナル)

Optimal control (OC) is an effective approach to controlling complex dynamical systems. However, typical approaches to parameterising and learning controllers in optimal control have been ad-hoc, collecting data and fitting it to neural networks. This two-step approach can overlook crucial constraints such as optimality and time-varying conditions. We introduce a unified, function-first framework that simultaneously learns Lyapunov or value functions while implicitly solving OC problems. We propose two mathematical programs based on the Hamilton-Jacobi-Bellman (HJB) constraint and its relaxation to learn time varying value and Lyapunov functions. We show the effectiveness of our approach on linear and nonlinear control-affine problems. The proposed methods are able to generate near optimal trajectories and guarantee Lyapunov condition over a compact set of initial conditions. Furthermore We compare our methods to Soft Actor Critic (SAC) and Proximal Policy Optimisation (PPO). In this comparison, we never underperform in task cost and, in the best cases, outperform SAC and PPO by a factor of 73 and 22, respectively.

arxiv情報

著者 Daniel Layeghi,Steve Tonneau,Michael Mistry
発行日 2023-09-18 13:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク