Scaling Population-Based Reinforcement Learning with GPU Accelerated Simulation

要約

近年、深層強化学習(RL)は、移動や器用な操作などの複雑な連続制御タスクの解決に有効であることが示されています。
ただし、これにはトレーニングに必要な膨大な経験が犠牲になり、学習効率やポリシーのパフォーマンスがハイパーパラメータの選択に敏感になることでさらに悪化し、多くの場合、時間のかかる実験を何度も試行する必要があります。
この研究では、GPU で高速化された物理シミュレーターを利用して、複数のポリシーを並行して同時にトレーニングすることで RL の探索機能を強化する、母集団ベースの強化学習 (PBRL) アプローチを導入します。
PBRL フレームワークは、PPO、SAC、DDPG という 3 つの最先端の RL アルゴリズムに適用され、学習エージェントのパフォーマンスに基づいてハイパーパラメーターを動的に調整します。
実験は、アイザック ジムの 4 つの困難なタスク (Anymal Terrain、Shadow Hand、Humanoid、Franka Nut Pick) で、集団サイズとハイパーパラメーターの突然変異メカニズムの影響を分析することによって実行されます。
結果は、PBRL エージェントが、非進化ベースライン エージェントと比較して、累積報酬の点で優れたパフォーマンスを達成することを示しています。
訓練されたエージェントは最終的にフランカ ナッツ ピック タスクのために現実世界に配置され、シミュレーションから現実への転送が成功したことを実証します。
学習したポリシーのコードとビデオは、プロジェクト Web サイトで入手できます。

要約(オリジナル)

In recent years, deep reinforcement learning (RL) has shown its effectiveness in solving complex continuous control tasks like locomotion and dexterous manipulation. However, this comes at the cost of an enormous amount of experience required for training, exacerbated by the sensitivity of learning efficiency and the policy performance to hyperparameter selection, which often requires numerous trials of time-consuming experiments. This work introduces a Population-Based Reinforcement Learning (PBRL) approach that exploits a GPU-accelerated physics simulator to enhance the exploration capabilities of RL by concurrently training multiple policies in parallel. The PBRL framework is applied to three state-of-the-art RL algorithms — PPO, SAC, and DDPG — dynamically adjusting hyperparameters based on the performance of learning agents. The experiments are performed on four challenging tasks in Isaac Gym — Anymal Terrain, Shadow Hand, Humanoid, Franka Nut Pick — by analyzing the effect of population size and mutation mechanisms for hyperparameters. The results show that PBRL agents achieve superior performance, in terms of cumulative reward, compared to non-evolutionary baseline agents. The trained agents are finally deployed in the real world for a Franka Nut Pick task, demonstrating successful sim-to-real transfer. Code and videos of the learned policies are available on our project website.

arxiv情報

著者 Asad Ali Shahid,Yashraj Narang,Vincenzo Petrone,Enrico Ferrentino,Ankur Handa,Dieter Fox,Marco Pavone,Loris Roveda
発行日 2024-04-08 09:56:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク