Accelerating Goal-Conditioned RL Algorithms and Research

要約

自己監視には、機械学習の他の分野で可能になった画期的な進歩と同様に、強化学習 (RL) を変革する可能性があります。
他のドメインの自己教師あり学習は固定データセット内のパターンを見つけることを目的としていますが、自己教師あり目標条件付き強化学習 (GCRL) エージェントは、環境との非構造化相互作用中に達成された目標から学習することで新しい動作を発見します。
しかし、これらの方法は、遅い環境からのデータが不足していることと、安定したアルゴリズムが不足していることの両方により、同様の成功を収めることができませんでした。
私たちは、自己教師あり GCRL 用の高性能コードベースとベンチマーク JaxGCRL をリリースすることで、これらの問題の両方に対処するための一歩を踏み出し、研究者が単一の GPU で数百万の環境ステップに対してエージェントをトレーニングできるようにします。
このパフォーマンスの鍵は、GPU アクセラレーション環境と、infoNCE 目標に基づいた対照強化学習アルゴリズムの安定したバッチ バージョンの組み合わせであり、この増加したデータ スループットを効果的に利用します。
このアプローチにより、自己教師あり GCRL における将来の研究のための基盤が提供され、研究者が新しいアイデアを迅速に反復し、さまざまな困難な環境でそれらを評価できるようになります。
ウェブサイト + コード: https://github.com/MichalBortkiewicz/JaxGCRL

要約(オリジナル)

Self-supervision has the potential to transform reinforcement learning (RL), paralleling the breakthroughs it has enabled in other areas of machine learning. While self-supervised learning in other domains aims to find patterns in a fixed dataset, self-supervised goal-conditioned reinforcement learning (GCRL) agents discover new behaviors by learning from the goals achieved during unstructured interaction with the environment. However, these methods have failed to see similar success, both due to a lack of data from slow environments as well as a lack of stable algorithms. We take a step toward addressing both of these issues by releasing a high-performance codebase and benchmark JaxGCRL for self-supervised GCRL, enabling researchers to train agents for millions of environment steps in minutes on a single GPU. The key to this performance is a combination of GPU-accelerated environments and a stable, batched version of the contrastive reinforcement learning algorithm, based on an infoNCE objective, that effectively makes use of this increased data throughput. With this approach, we provide a foundation for future research in self-supervised GCRL, enabling researchers to quickly iterate on new ideas and evaluate them in a diverse set of challenging environments. Website + Code: https://github.com/MichalBortkiewicz/JaxGCRL

arxiv情報

著者 Michał Bortkiewicz,Władek Pałucki,Vivek Myers,Tadeusz Dziarmaga,Tomasz Arczewski,Łukasz Kuciński,Benjamin Eysenbach
発行日 2024-08-20 17:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク