Going into Orbit: Massively Parallelizing Episodic Reinforcement Learning

要約

深層強化学習の応用により、ロボット制御の可能性はさまざまな領域で広がりました。
安全性とサンプリング効率の問題を克服するために、深層強化学習モデルをシミュレーション環境でトレーニングし、反復サイクルを高速化することができます。
これは、GPU を使用してトレーニング プロセスを並列化することでさらに強化できます。
NVIDIA のオープンソース ロボット学習フレームワーク Orbit は、テンソルベースの強化学習ライブラリをラップして高い並列性を実現し、シミュレーション用に Isaac Sim を構築することで、この可能性を活用しています。
私たちは、Orbit を使用したベンチマーク強化学習タスク、つまりボックス プッシュの実装の詳細な説明を提供します。
さらに、CPU ベースの実装と比較して実装のパフォーマンスをベンチマークし、パフォーマンス メトリックを報告します。
最後に、実装のハイパー パラメーターを調整し、Orbit を使用することで、同じ時間内でより多くのサンプルを生成できることを示します。

要約(オリジナル)

The possibilities of robot control have multiplied across various domains through the application of deep reinforcement learning. To overcome safety and sampling efficiency issues, deep reinforcement learning models can be trained in a simulation environment, allowing for faster iteration cycles. This can be enhanced further by parallelizing the training process using GPUs. NVIDIA’s open-source robot learning framework Orbit leverages this potential by wrapping tensor-based reinforcement learning libraries for high parallelism and building upon Isaac Sim for its simulations. We contribute a detailed description of the implementation of a benchmark reinforcement learning task, namely box pushing, using Orbit. Additionally, we benchmark the performance of our implementation in comparison to a CPU-based implementation and report the performance metrics. Finally, we tune the hyper parameters of our implementation and show that we can generate significantly more samples in the same amount of time by using Orbit.

arxiv情報

著者 Jan Oberst,Johann Bonneau
発行日 2024-05-19 10:38:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク