XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning

要約

大規模な言語およびコンピュータービジョンモデルにおけるコンテキスト学習パラダイムの成功に続いて、コンテキスト内の補強学習の最近新たな分野は急速に成長しています。
ただし、すべての実験は単純な環境と小規模データセットで実施されているため、その開発は挑戦的なベンチマークの欠如によって抑制されています。
この問題を軽減するための最初のステップとして、Xland-minigrid環境に基づいたコンテキスト内の補強学習のための大規模なデータセットであるXland-100Bを提示します。
これには、100ドルの$ $ Bの移行と2.5bのエピソードをカバーする、ほぼ30,000ドルの異なるタスクの完全な学習履歴が含まれています。
データセットを収集するのに50,000 GPU時間がかかりました。これは、ほとんどの学術ラボの範囲を超えています。
データセットに加えて、ユーティリティを提供して、さらに拡張します。
また、一般的なコンテキスト内のRLベースラインをベンチマークし、斬新で多様なタスクに一般化するのに苦労していることを示しています。
この実質的な努力により、私たちは、コンテキスト内の補強学習の急速に成長している分野での研究を民主化し、さらなるスケーリングのための強固な基盤を提供することを目指しています。

要約(オリジナル)

Following the success of the in-context learning paradigm in large-scale language and computer vision models, the recently emerging field of in-context reinforcement learning is experiencing a rapid growth. However, its development has been held back by the lack of challenging benchmarks, as all the experiments have been carried out in simple environments and on small-scale datasets. We present XLand-100B, a large-scale dataset for in-context reinforcement learning based on the XLand-MiniGrid environment, as a first step to alleviate this problem. It contains complete learning histories for nearly $30,000$ different tasks, covering $100$B transitions and 2.5B episodes. It took 50,000 GPU hours to collect the dataset, which is beyond the reach of most academic labs. Along with the dataset, we provide the utilities to reproduce or expand it even further. We also benchmark common in-context RL baselines and show that they struggle to generalize to novel and diverse tasks. With this substantial effort, we aim to democratize research in the rapidly growing field of in-context reinforcement learning and provide a solid foundation for further scaling.

arxiv情報

著者 Alexander Nikulin,Ilya Zisman,Alexey Zemtsov,Vladislav Kurenkov
発行日 2025-02-20 16:51:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク