Benchmarking Population-Based Reinforcement Learning across Robotic Tasks with GPU-Accelerated Simulation

要約

近年、Deep Rehnection Learning(RL)は、複雑な連続制御タスクを解決する際の有効性を示しています。
ただし、これは、学習効率の感度とハイパーパラメーター選択に対する政策パフォーマンスによって悪化することによって悪化するトレーニングに必要な膨大な経験を犠牲にしてもたらされます。
この作業は、人口ベースの強化学習(PBRL)アプローチとGPUにアクセラル化された物理シミュレーターを活用して、複数のポリシーを並行して同時にトレーニングすることにより、RLの探査機能を強化します。
PBRLフレームワークは、学習エージェントのパフォーマンスに基づいてハイパーパラメーターを動的に調整する3つの最先端のRLアルゴリズム(PPO、SAC、およびDDPG)に対してベンチマークされています。
この実験は、ハイパーパラメーターの人口サイズと突然変異メカニズムの効果を分析することにより、アイザックジムの4つの挑戦的なタスク(アブマル地形、シャドウハンド、ヒューマノイド、フランカナットピック)で実行されます。
結果は、PBRLエージェントが非進化ベースラインエージェントと比較して、累積報酬の観点から優れた性能を達成することを示しています。
さらに、訓練を受けたエージェントは、フランカナットピックのタスクのために最終的に現実の世界に展開されます。
私たちの知る限り、これは実際のハードウェアにPBRLエージェントを展開するための最初のSIMからリアルへの試みです。
学んだポリシーのコードとビデオは、プロジェクトWebサイト(https://sites.google.com/view/pbrl)で入手できます。

要約(オリジナル)

In recent years, deep reinforcement learning (RL) has shown its effectiveness in solving complex continuous control tasks. However, this comes at the cost of an enormous amount of experience required for training, exacerbated by the sensitivity of learning efficiency and the policy performance to hyperparameter selection, which often requires numerous trials of time-consuming experiments. This work leverages a Population-Based Reinforcement Learning (PBRL) approach and a GPU-accelerated physics simulator to enhance the exploration capabilities of RL by concurrently training multiple policies in parallel. The PBRL framework is benchmarked against three state-of-the-art RL algorithms — PPO, SAC, and DDPG — dynamically adjusting hyperparameters based on the performance of learning agents. The experiments are performed on four challenging tasks in Isaac Gym — Anymal Terrain, Shadow Hand, Humanoid, Franka Nut Pick — by analyzing the effect of population size and mutation mechanisms for hyperparameters. The results show that PBRL agents achieve superior performance, in terms of cumulative reward, compared to non-evolutionary baseline agents. Moreover, the trained agents are finally deployed in the real world for a Franka Nut Pick task. To our knowledge, this is the first sim-to-real attempt for deploying PBRL agents on real hardware. Code and videos of the learned policies are available on our project website (https://sites.google.com/view/pbrl).

arxiv情報

著者 Asad Ali Shahid,Yashraj Narang,Vincenzo Petrone,Enrico Ferrentino,Ankur Handa,Dieter Fox,Marco Pavone,Loris Roveda
発行日 2025-06-11 15:21:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク