Jumanji: a Diverse Suite of Scalable Reinforcement Learning Environments in JAX

要約

オープンソースの強化学習 (RL) 環境は、AI アルゴリズムの開発の進歩を促進する上で重要な役割を果たしてきました。
現代の RL 研究では、より広範な潜在的な現実世界のアプリケーションでの利用を可能にする、パフォーマンスが高く、スケーラブルで、モジュール式のシミュレート環境が必要です。
そこで、高速、柔軟、スケーラブルになるように特別に設計された多様な RL 環境スイートである Jumanji を紹介します。
Jumanji は、業界で頻繁に遭遇する組み合わせ問題や、一般的な意思決定の困難なタスクに焦点を当てた一連の環境を提供します。
JAX と GPU や TPU などのハードウェア アクセラレータの効率を活用することで、Jumanji は研究アイデアの迅速な反復と大規模な実験を可能にし、最終的にはより有能なエージェントに力を与えます。
既存の RL 環境スイートとは異なり、Jumanji は高度にカスタマイズ可能であるため、ユーザーは初期状態の分布と問題の複雑さをニーズに合わせて調整できます。
さらに、スケーリングと一般化のシナリオに関する予備調査結果を伴う、各環境のアクター批判ベースラインを提供します。
Jumanji は、RL 環境の速度、適応性、拡張性の新しい標準を確立することを目指しています。

要約(オリジナル)

Open-source reinforcement learning (RL) environments have played a crucial role in driving progress in the development of AI algorithms. In modern RL research, there is a need for simulated environments that are performant, scalable, and modular to enable their utilization in a wider range of potential real-world applications. Therefore, we present Jumanji, a suite of diverse RL environments specifically designed to be fast, flexible, and scalable. Jumanji provides a suite of environments focusing on combinatorial problems frequently encountered in industry, as well as challenging general decision-making tasks. By leveraging the efficiency of JAX and hardware accelerators like GPUs and TPUs, Jumanji enables rapid iteration of research ideas and large-scale experimentation, ultimately empowering more capable agents. Unlike existing RL environment suites, Jumanji is highly customizable, allowing users to tailor the initial state distribution and problem complexity to their needs. Furthermore, we provide actor-critic baselines for each environment, accompanied by preliminary findings on scaling and generalization scenarios. Jumanji aims to set a new standard for speed, adaptability, and scalability of RL environments.

arxiv情報

著者 Clément Bonnet,Daniel Luo,Donal Byrne,Shikha Surana,Vincent Coyette,Paul Duckworth,Laurence I. Midgley,Tristan Kalloniatis,Sasha Abramowitz,Cemlyn N. Waters,Andries P. Smit,Nathan Grinsztajn,Ulrich A. Mbou Sob,Omayma Mahjoub,Elshadai Tegegn,Mohamed A. Mimouni,Raphael Boige,Ruan de Kock,Daniel Furelos-Blanco,Victor Le,Arnu Pretorius,Alexandre Laterre
発行日 2023-06-16 14:52:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク