CACTO: Continuous Actor-Critic with Trajectory Optimization — Towards global optimality

要約

この論文では、単一のフレームワークで軌道最適化 (TO) と強化学習 (RL) を組み合わせた、動的システムの連続制御のための新しいアルゴリズムを紹介します。
このアルゴリズムの背後にある動機は、非凸コスト関数を最小化するために連続非線形システムに適用される場合の TO と RL の 2 つの主な制限です。
具体的には、検索が「適切な」最小値の近くで初期化されていない場合、TO は不十分な局所的最小値でスタックする可能性があります。
一方、連続状態と制御空間を扱う場合、RL トレーニング プロセスは過度に長くなり、探索戦略に大きく依存する可能性があります。
したがって、私たちのアルゴリズムは、TO ガイド付き RL ポリシー検索を介して「適切な」制御ポリシーを学習します。これは、TO の初期推測プロバイダーとして使用されると、軌道最適化プロセスが不十分なローカル最適値に収束しにくくなります。
私たちの方法は、6D状態の自動車モデルや3関節平面マニピュレーターなど、さまざまな動的システムを使用した非凸障害回避を特徴とするいくつかの到達問題で検証されています。
私たちの結果は、深層決定論的方策勾配 (DDPG) および近接方策最適化 (PPO) RL アルゴリズムよりも計算効率が高く、局所的最小値を回避する CACTO の優れた機能を示しています。

要約(オリジナル)

This paper presents a novel algorithm for the continuous control of dynamical systems that combines Trajectory Optimization (TO) and Reinforcement Learning (RL) in a single framework. The motivations behind this algorithm are the two main limitations of TO and RL when applied to continuous nonlinear systems to minimize a non-convex cost function. Specifically, TO can get stuck in poor local minima when the search is not initialized close to a ‘good’ minimum. On the other hand, when dealing with continuous state and control spaces, the RL training process may be excessively long and strongly dependent on the exploration strategy. Thus, our algorithm learns a ‘good’ control policy via TO-guided RL policy search that, when used as initial guess provider for TO, makes the trajectory optimization process less prone to converge to poor local optima. Our method is validated on several reaching problems featuring non-convex obstacle avoidance with different dynamical systems, including a car model with 6D state, and a 3-joint planar manipulator. Our results show the great capabilities of CACTO in escaping local minima, while being more computationally efficient than the Deep Deterministic Policy Gradient (DDPG) and Proximal Policy Optimization (PPO) RL algorithms.

arxiv情報

著者 Gianluigi Grandesso,Elisa Alboni,Gastone P. Rosati Papini,Patrick M. Wensing,Andrea Del Prete
発行日 2023-02-16 10:52:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.LG, cs.RO, I.2.9, math.OC パーマリンク