Neural Lyapunov and Optimal Control

要約

素晴らしい結果にもかかわらず、強化学習 (RL) は収束が遅いという問題があり、多種多様な調整戦略が必要です。
この論文では、単純な連続制御タスクにおける RL アルゴリズムの能力を調査します。
報酬と環境の調整がないと、RL の収束が低下することがわかります。
次に、同じ問題を単純なコストを節約して確実に解決できる、最適制御 (OC) 理論学習ベースの手法を紹介します。
ハミルトン・ヤコビ・ベルマン (HJB) と一次勾配を使用して、最適な時変値関数、つまりポリシーを学習します。
時変リアプノフ関数における目的結果の緩和を示し、コンパクトな初期条件セットに対する保証を提供することでアプローチをさらに検証します。
私たちの手法を Soft Actor Critic (SAC) および Proximal Policy Optimization (PPO) と比較します。
この比較では、すべてのタスクを解決し、タスク コストでパフォーマンスを下回ることがなく、収束点で最良の場合の SAC と PPO を 4 桁と 2 桁上回るパフォーマンスを示しています。

要約(オリジナル)

Despite impressive results, reinforcement learning (RL) suffers from slow convergence and requires a large variety of tuning strategies. In this paper, we investigate the ability of RL algorithms on simple continuous control tasks. We show that without reward and environment tuning, RL suffers from poor convergence. In turn, we introduce an optimal control (OC) theoretic learning-based method that can solve the same problems robustly with simple parsimonious costs. We use the Hamilton-Jacobi-Bellman (HJB) and first-order gradients to learn optimal time-varying value functions and therefore, policies. We show the relaxation of our objective results in time-varying Lyapunov functions, further verifying our approach by providing guarantees over a compact set of initial conditions. We compare our method to Soft Actor Critic (SAC) and Proximal Policy Optimisation (PPO). In this comparison, we solve all tasks, we never underperform in task cost and we show that at the point of our convergence, we outperform SAC and PPO in the best case by 4 and 2 orders of magnitude.

arxiv情報

著者 Daniel Layeghi,Steve Tonneau,Michael Mistry
発行日 2024-02-15 11:08:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク