A Policy Optimization Method Towards Optimal-time Stability

要約

現在のモデルフリー強化学習 (RL) アルゴリズムでは、ポリシーの最適化を導くために、サンプリング方法に基づく安定性基準が一般的に利用されています。
ただし、これらの基準は、システムの状態が平衡点に無限に収束することを保証するだけであり、ポリシーが次善の状態になることになります。
この論文では、サンプリングベースのリアプノフ安定性を組み込んだポリシー最適化手法を提案します。
私たちのアプローチにより、システムの状態が最適な時間内に平衡点に到達し、その後「最適な時間の安定性」と呼ばれる安定性を維持することが可能になります。
これを達成するために、最適化手法を Actor-Critic フレームワークに統合し、その結果、Adaptive Lyapunov ベースの Actor-Critic (ALAC) アルゴリズムが開発されました。
10 個のロボット タスクに対して実施された評価を通じて、私たちのアプローチは以前の研究を大幅に上回り、安定したパターンを生成するようにシステムを効果的に導きました。

要約(オリジナル)

In current model-free reinforcement learning (RL) algorithms, stability criteria based on sampling methods are commonly utilized to guide policy optimization. However, these criteria only guarantee the infinite-time convergence of the system’s state to an equilibrium point, which leads to sub-optimality of the policy. In this paper, we propose a policy optimization technique incorporating sampling-based Lyapunov stability. Our approach enables the system’s state to reach an equilibrium point within an optimal time and maintain stability thereafter, referred to as ‘optimal-time stability’. To achieve this, we integrate the optimization method into the Actor-Critic framework, resulting in the development of the Adaptive Lyapunov-based Actor-Critic (ALAC) algorithm. Through evaluations conducted on ten robotic tasks, our approach outperforms previous studies significantly, effectively guiding the system to generate stable patterns.

arxiv情報

著者 Shengjie Wang,Fengbo Lan,Xiang Zheng,Yuxue Cao,Oluwatosin Oseni,Haotian Xu,Tao Zhang,Yang Gao
発行日 2023-10-13 01:47:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク