Scaling Population-Based Reinforcement Learning with GPU Accelerated Simulation

要約

近年、深層強化学習(RL)は、運動や器用な操作のような複雑な連続制御タスクの解決に有効であることが示されている。しかし、これは学習に必要な膨大な経験の代償であり、学習効率やポリシーの性能がハイパーパラメータの選択に敏感であるために悪化し、多くの場合、時間のかかる実験を何度も試行する必要がある。本研究では、GPUアクセラレーションを用いた物理シミュレータを利用し、複数のポリシーの並列学習を同時に行うことで、RLの探索能力を向上させるポピュレーションベース強化学習(PBRL)アプローチを紹介する。PBRLフレームワークは3つの最先端のRLアルゴリズム(PPO、SAC、DDPG)に適用され、学習エージェントのパフォーマンスに基づいて動的にハイパーパラメータを調整する。実験では、Isaac Gymの4つの困難なタスク(Anymal Terrain、Shadow Hand、Humanoid、Franka Nut Pick)に対して、ハイパーパラメータの母集団サイズと突然変異メカニズムの効果を分析した。その結果、PBRLエージェントは非進化的なベースラインエージェントと比較して、累積報酬の点で優れた性能を達成することが示された。学習されたエージェントは、最終的に実世界でFranka Nut Pick}タスクに投入され、シミュレーションから実世界への転送が成功したことを示す。学習されたポリシーのコードとビデオは、我々のプロジェクトのウェブサイトで入手可能である。

要約(オリジナル)

In recent years, deep reinforcement learning (RL) has shown its effectiveness in solving complex continuous control tasks like locomotion and dexterous manipulation. However, this comes at the cost of an enormous amount of experience required for training, exacerbated by the sensitivity of learning efficiency and the policy performance to hyperparameter selection, which often requires numerous trials of time-consuming experiments. This work introduces a Population-Based Reinforcement Learning (PBRL) approach that exploits a GPU-accelerated physics simulator to enhance the exploration capabilities of RL by concurrently training multiple policies in parallel. The PBRL framework is applied to three state-of-the-art RL algorithms — PPO, SAC, and DDPG — dynamically adjusting hyperparameters based on the performance of learning agents. The experiments are performed on four challenging tasks in Isaac Gym — Anymal Terrain, Shadow Hand, Humanoid, Franka Nut Pick — by analyzing the effect of population size and mutation mechanisms for hyperparameters. The results show that PBRL agents achieve superior performance, in terms of cumulative reward, compared to non-evolutionary baseline agents. The trained agents are finally deployed in the real world for a Franka Nut Pick} task, demonstrating successful sim-to-real transfer. Code and videos of the learned policies are available on our project website.

arxiv情報

著者 Asad Ali Shahid,Yashraj Narang,Vincenzo Petrone,Enrico Ferrentino,Ankur Handa,Dieter Fox,Marco Pavone,Loris Roveda
発行日 2024-04-04 10:04:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク