SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores

要約

強化学習 (RL) タスクはますます複雑になり、インテリジェント エージェントをトレーニングするために大量のデータを効率的に生成および処理する分散 RL システムが求められています。
ただし、既存のオープンソース ライブラリにはさまざまな制限があり、大規模なトレーニングが必要な困難なシナリオでの実用的な使用が妨げられています。
OpenAI と DeepMind の産業システムは大規模な RL トレーニングに成功していますが、そのシステム アーキテクチャと実装の詳細はコミュニティに公開されていません。
この論文では、RL トレーニングのデータフローに関する新しい抽象化を紹介します。これにより、さまざまなアプリケーションにわたる実践的な RL トレーニングが一般的なフレームワークに統合され、きめ細かい最適化が可能になります。
この抽象化に従って、ReaLly Scalable RL (SRL) と呼ばれる、スケーラブルで効率的かつ拡張可能な分散 RL システムを開発します。
SRL のシステム アーキテクチャは主要な RL 計算コンポーネントを分離し、大規模な並列化トレーニングを可能にします。
さらに、SRL は、カスタマイズされたアルゴリズム用に、ユーザーフレンドリーで拡張可能なインターフェイスを提供します。
私たちの評価では、SRL が単一マシンと中規模のクラスターの両方で既存の学術ライブラリよりも優れたパフォーマンスを発揮することが示されています。
大規模クラスターでは、SRL の新しいアーキテクチャにより、既存のライブラリで採用されている設計選択と比較して最大 3.7 倍の高速化が実現します。
また、挑戦的なかくれんぼ環境において、OpenAI の産業システムである Rapid との直接ベンチマーク比較も実施します。
SRL は、OpenAI によって報告されたものと同じソリューションを再現し、実時間で最大 5 倍の高速化を実現します。
さらに、より難しいかくれんぼ環境における SRL のパフォーマンスも検証し、SRL を 15,000 個を超える CPU コアと 32 個の A100 GPU に拡張することで、学習の大幅な高速化を実現しました。
注目すべきことに、SRL は学術コミュニティにおいてこれほど大規模な RL 実験を実施した最初の企業です。

要約(オリジナル)

The ever-growing complexity of reinforcement learning (RL) tasks demands a distributed RL system to efficiently generate and process a massive amount of data to train intelligent agents. However, existing open-source libraries suffer from various limitations, which impede their practical use in challenging scenarios where large-scale training is necessary. While industrial systems from OpenAI and DeepMind have achieved successful large-scale RL training, their system architecture and implementation details remain undisclosed to the community. In this paper, we present a novel abstraction on the dataflows of RL training, which unifies practical RL training across diverse applications into a general framework and enables fine-grained optimizations. Following this abstraction, we develop a scalable, efficient, and extensible distributed RL system called ReaLly Scalable RL (SRL). The system architecture of SRL separates major RL computation components and allows massively parallelized training. Moreover, SRL offers user-friendly and extensible interfaces for customized algorithms. Our evaluation shows that SRL outperforms existing academic libraries in both a single machine and a medium-sized cluster. In a large-scale cluster, the novel architecture of SRL leads to up to 3.7x speedup compared to the design choices adopted by the existing libraries. We also conduct a direct benchmark comparison to OpenAI’s industrial system, Rapid, in the challenging hide-and-seek environment. SRL reproduces the same solution as reported by OpenAI with up to 5x speedup in wall-clock time. Furthermore, we also examine the performance of SRL in a much harder variant of the hide-and-seek environment and achieve substantial learning speedup by scaling SRL to over 15k CPU cores and 32 A100 GPUs. Notably, SRL is the first in the academic community to perform RL experiments at such a large scale.

arxiv情報

著者 Zhiyu Mei,Wei Fu,Guangju Wang,Huanchen Zhang,Yi Wu
発行日 2023-07-05 08:16:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク