強化学習 (RL) は、ロボット タスク用の堅牢なポリシーを作成する上で有望であることが示されています。
ただし、現代の RL アルゴリズムは大量のデータを必要とし、成功するポリシーをトレーニングするには数十億回の環境移行が必要になることがよくあります。
QuadSwarm は、両方の問題に対処する、クアッドローター用の単一ロボットおよびマルチロボット RL の研究用の高速で信頼性の高いシミュレーターです。
QuadSwarm は、レンダリングから切り離された高速フォワード ダイナミクスの伝播を備えており、コンピューティングの追加に応じてスループットが直線的に増加するように高度に並列化できるように設計されています。
これは、多様なトレーニング シナリオを含む、マルチロボット RL に合わせて調整された複数のコンポーネントを提供し、ドメインのランダム化を提供して、マルチクアッドローター制御ポリシーの開発と sim2real 転送を容易にします。
初期実験では、QuadSwarm が 16 コア CPU 上の 1 つのクワッドローターで 48,500 を超えるシミュレーション サンプル/秒 (SPS) を達成し、8 つのクアローターで 62,000 を超える SPS を達成することを示唆しています。
コードは https://github.com/Zhehui-Huang/quad-swarm-rl にあります。
Reinforcement learning (RL) has shown promise in creating robust policies for robotics tasks. However, contemporary RL algorithms are data-hungry, often requiring billions of environment transitions to train successful policies. This necessitates the use of fast and highly-parallelizable simulators. In addition to speed, such simulators need to model the physics of the robots and their interaction with the environment to a level acceptable for transferring policies learned in simulation to reality. We present QuadSwarm, a fast, reliable simulator for research in single and multi-robot RL for quadrotors that addresses both issues. QuadSwarm, with fast forward-dynamics propagation decoupled from rendering, is designed to be highly parallelizable such that throughput scales linearly with additional compute. It provides multiple components tailored toward multi-robot RL, including diverse training scenarios, and provides domain randomization to facilitate the development and sim2real transfer of multi-quadrotor control policies. Initial experiments suggest that QuadSwarm achieves over 48,500 simulation samples per second (SPS) on a single quadrotor and over 62,000 SPS on eight quadrotors on a 16-core CPU. The code can be found in https://github.com/Zhehui-Huang/quad-swarm-rl.
著者 | Zhehui Huang,Sumeet Batra,Tao Chen,Rahul Krupani,Tushar Kumar,Artem Molchanov,Aleksei Petrenko,James A. Preiss,Zhaojing Yang,Gaurav S. Sukhatme |
発行日 | 2023-06-15 22:46:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google