要約
極端なサンプルの非効率にもかかわらず、ポリシーに基づく強化学習、別名ポリシー勾配は、意思決定の問題における基本的なツールとなっています。
GPU 駆動シミュレーションの最近の進歩により、RL トレーニング用に大量のデータを収集する機能が飛躍的に拡大しました。
ただし、現在の RL 手法、たとえば、
PPO は、ある点を超えると並列化環境のメリットを享受できなくなり、パフォーマンスが飽和します。
これに対処するために、大規模な環境をチャンクに分割し、重要度のサンプリングによってそれらを再び結合することで、大規模な環境を効果的に活用できる、新しいオンポリシー RL アルゴリズムを提案します。
SAPG と呼ばれる当社のアルゴリズムは、バニラ PPO やその他の強力なベースラインでは高いパフォーマンスを達成できないさまざまな困難な環境において、大幅に高いパフォーマンスを示します。
ウェブサイト https://sapg-rl.github.io/
要約(オリジナル)
Despite extreme sample inefficiency, on-policy reinforcement learning, aka policy gradients, has become a fundamental tool in decision-making problems. With the recent advances in GPU-driven simulation, the ability to collect large amounts of data for RL training has scaled exponentially. However, we show that current RL methods, e.g. PPO, fail to ingest the benefit of parallelized environments beyond a certain point and their performance saturates. To address this, we propose a new on-policy RL algorithm that can effectively leverage large-scale environments by splitting them into chunks and fusing them back together via importance sampling. Our algorithm, termed SAPG, shows significantly higher performance across a variety of challenging environments where vanilla PPO and other strong baselines fail to achieve high performance. Website at https://sapg-rl.github.io/
arxiv情報
著者 | Jayesh Singla,Ananye Agarwal,Deepak Pathak |
発行日 | 2024-07-29 17:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google