オフラインのデータセットに対して自己教師付き学習で訓練された大規模モデルは、テキストや画像の領域で顕著な能力を示しているが、逐次的な決定問題で行動するエージェントに対して同様の汎化を達成することは、依然として未解決の課題である。本研究では、数千万の2次元物理ベースタスクを手続き的に生成し、これらを用いて物理制御のための一般的な強化学習(RL)エージェントを訓練することで、この目標に向けて一歩を踏み出す。この目的のために、我々はKinetixを紹介する。Kinetixは物理ベースのRL環境のオープンエンドな空間であり、ロボットの運動や把持からビデオゲームや古典的なRL環境まで、様々なタスクを統一されたフレームワークで表現することができる。Kinetixは、我々の新しいハードウェアアクセラレーション物理エンジンJax2Dを利用しており、トレーニング中に何十億もの環境ステップを安価にシミュレートすることができる。訓練されたエージェントは、2D空間において強力な物理的推論能力を発揮し、人間が設計した未知の環境をゼロショットで解決することができます。さらに、この一般的なエージェントを興味のあるタスクで微調整すると、RLエージェントを*tabula rasa*で訓練するよりも著しく強力な性能を示す。これには、標準的なRLトレーニングが完全に失敗する環境も含まれる。我々は、これがオンラインRLのための大規模で質の混在した事前トレーニングの実現可能性を示していると考えており、Kinetixがこれをさらに調査するための有用なフレームワークとして機能することを期待している。
While large models trained with self-supervised learning on offline datasets have shown remarkable capabilities in text and image domains, achieving the same generalisation for agents that act in sequential decision problems remains an open challenge. In this work, we take a step towards this goal by procedurally generating tens of millions of 2D physics-based tasks and using these to train a general reinforcement learning (RL) agent for physical control. To this end, we introduce Kinetix: an open-ended space of physics-based RL environments that can represent tasks ranging from robotic locomotion and grasping to video games and classic RL environments, all within a unified framework. Kinetix makes use of our novel hardware-accelerated physics engine Jax2D that allows us to cheaply simulate billions of environment steps during training. Our trained agent exhibits strong physical reasoning capabilities in 2D space, being able to zero-shot solve unseen human-designed environments. Furthermore, fine-tuning this general agent on tasks of interest shows significantly stronger performance than training an RL agent *tabula rasa*. This includes solving some environments that standard RL training completely fails at. We believe this demonstrates the feasibility of large scale, mixed-quality pre-training for online RL and we hope that Kinetix will serve as a useful framework to investigate this further.
著者 | Michael Matthews,Michael Beukman,Chris Lu,Jakob Foerster |
発行日 | 2025-03-03 14:29:16+00:00 |
arxivサイト | arxiv_id(pdf) |