要約
強化学習は大量のトレーニング データが必要なため、複雑なタスクには時間がかかります。
Isaac Gym などの GPU ベースのシミュレーションの最近の進歩により、汎用 GPU でのデータ収集が何千倍も高速化されました。
これまでのほとんどの作業では、そのシンプルさとスケーリングの容易さから、PPO などのポリシーに基づく手法が使用されていました。
ポリシー外の方法はデータ効率が高くなりますが、拡張が難しく、実時間のトレーニング時間が長くなります。
この論文では、オフポリシー学習の優れたサンプル効率を維持しながら、実時間で PPO を上回る並列 $Q$-Learning (PQL) スキームを紹介します。
PQL は、データ収集、ポリシー学習、値学習を並列化することでこれを実現します。
Apex などの分散オフポリシー学習に関するこれまでの取り組みとは異なり、私たちのスキームは大規模並列 GPU ベースのシミュレーション用に特別に設計されており、単一のワークステーションで動作するように最適化されています。
実験では、$Q$ 学習を \textit{数万の並列環境} まで拡張できることを実証し、学習速度に影響を与える重要な要素を調査します。
コードは https://github.com/Improbable-AI/pql で入手できます。
要約(オリジナル)
Reinforcement learning is time-consuming for complex tasks due to the need for large amounts of training data. Recent advances in GPU-based simulation, such as Isaac Gym, have sped up data collection thousands of times on a commodity GPU. Most prior works used on-policy methods like PPO due to their simplicity and ease of scaling. Off-policy methods are more data efficient but challenging to scale, resulting in a longer wall-clock training time. This paper presents a Parallel $Q$-Learning (PQL) scheme that outperforms PPO in wall-clock time while maintaining superior sample efficiency of off-policy learning. PQL achieves this by parallelizing data collection, policy learning, and value learning. Different from prior works on distributed off-policy learning, such as Apex, our scheme is designed specifically for massively parallel GPU-based simulation and optimized to work on a single workstation. In experiments, we demonstrate that $Q$-learning can be scaled to \textit{tens of thousands of parallel environments} and investigate important factors affecting learning speed. The code is available at https://github.com/Improbable-AI/pql.
arxiv情報
著者 | Zechu Li,Tao Chen,Zhang-Wei Hong,Anurag Ajay,Pulkit Agrawal |
発行日 | 2023-07-24 17:59:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google