要約
近年、深層強化学習(RL)は、移動や器用な操作などの複雑な連続制御タスクの解決に有効であることが示されています。
ただし、これにはトレーニングに必要な膨大な経験が犠牲になり、学習効率やポリシーのパフォーマンスがハイパーパラメータの選択に敏感になることでさらに悪化し、多くの場合、時間のかかる実験を何度も試行する必要があります。
この研究では、GPU で高速化された物理シミュレーターを利用して、複数のポリシーを並行して同時にトレーニングすることで RL の探索機能を強化する、母集団ベースの強化学習 (PBRL) アプローチを導入します。
PBRL フレームワークは、PPO、SAC、DDPG という 3 つの最先端の RL アルゴリズムに適用され、学習エージェントのパフォーマンスに基づいてハイパーパラメーターを動的に調整します。
実験は、アイザック ジムの 4 つの困難なタスク (Anymal Terrain、Shadow Hand、Humanoid、Franka Nut Pick) で、集団サイズとハイパーパラメータの突然変異メカニズムの影響を分析することによって実行されます。
この結果は、PBRL エージェントが、二足歩行、操作、非構造化環境での把握など、人型ロボットに不可欠なタスク全体にわたって、非進化ベースライン エージェントよりも優れたパフォーマンスを発揮することを示しています。
訓練を受けたエージェントは、最終的にフランカ ナッツ ピック操作タスクのために現実世界に配備されます。
私たちの知る限り、これは PBRL エージェントを実際のハードウェアに正常に展開するための sim-to-real の最初の試みです。
学んだポリシーのコードとビデオは、プロジェクト Web サイト (https://sites.google.com/view/pbrl) で入手できます。
要約(オリジナル)
In recent years, deep reinforcement learning (RL) has shown its effectiveness in solving complex continuous control tasks like locomotion and dexterous manipulation. However, this comes at the cost of an enormous amount of experience required for training, exacerbated by the sensitivity of learning efficiency and the policy performance to hyperparameter selection, which often requires numerous trials of time-consuming experiments. This work introduces a Population-Based Reinforcement Learning (PBRL) approach that exploits a GPU-accelerated physics simulator to enhance the exploration capabilities of RL by concurrently training multiple policies in parallel. The PBRL framework is applied to three state-of-the-art RL algorithms – PPO, SAC, and DDPG – dynamically adjusting hyperparameters based on the performance of learning agents. The experiments are performed on four challenging tasks in Isaac Gym – Anymal Terrain, Shadow Hand, Humanoid, Franka Nut Pick – by analyzing the effect of population size and mutation mechanisms for hyperparameters. The results demonstrate that PBRL agents outperform non-evolutionary baseline agents across tasks essential for humanoid robots, such as bipedal locomotion, manipulation, and grasping in unstructured environments. The trained agents are finally deployed in the real world for the Franka Nut Pick manipulation task. To our knowledge, this is the first sim-to-real attempt for successfully deploying PBRL agents on real hardware. Code and videos of the learned policies are available on our project website (https://sites.google.com/view/pbrl).
arxiv情報
著者 | Asad Ali Shahid,Yashraj Narang,Vincenzo Petrone,Enrico Ferrentino,Ankur Handa,Dieter Fox,Marco Pavone,Loris Roveda |
発行日 | 2024-06-24 06:38:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google