要約
オフライン データセットで自己教師あり学習でトレーニングされた大規模モデルは、テキストおよび画像ドメインで顕著な機能を示していますが、逐次的な意思決定問題で動作するエージェントに対して同様の一般化を達成することは、未解決の課題のままです。
この研究では、数千万の 2D 物理ベースのタスクを手続き的に生成し、これらを使用して物理制御のための一般的な強化学習 (RL) エージェントをトレーニングすることで、この目標に向けた一歩を踏み出しました。
この目的を達成するために、私たちは Kinetix を導入します。これは、ロボットの移動や把握からビデオ ゲームや古典的な RL 環境に至るまでのタスクをすべて統一フレームワーク内で表現できる、物理ベースの RL 環境のオープンエンドの空間です。
Kinetix は、新しいハードウェア加速物理エンジン Jax2D を利用しており、トレーニング中に数十億の環境ステップを安価にシミュレートできます。
当社の訓練を受けたエージェントは強力な物理的推論能力を発揮し、人間が設計した目に見えない環境をゼロショットで解決できます。
さらに、関心のあるタスクに関してこの一般エージェントを微調整すると、RL エージェント *tabula rasa* をトレーニングするよりも大幅に優れたパフォーマンスが示されます。
これには、標準的な RL トレーニングでは完全に失敗するいくつかの環境の解決が含まれます。
私たちは、これがオンライン RL のための大規模で混合品質の事前トレーニングの実現可能性を示していると信じており、Kinetix がこれをさらに調査するための有用なフレームワークとして機能することを期待しています。
要約(オリジナル)
While large models trained with self-supervised learning on offline datasets have shown remarkable capabilities in text and image domains, achieving the same generalisation for agents that act in sequential decision problems remains an open challenge. In this work, we take a step towards this goal by procedurally generating tens of millions of 2D physics-based tasks and using these to train a general reinforcement learning (RL) agent for physical control. To this end, we introduce Kinetix: an open-ended space of physics-based RL environments that can represent tasks ranging from robotic locomotion and grasping to video games and classic RL environments, all within a unified framework. Kinetix makes use of our novel hardware-accelerated physics engine Jax2D that allows us to cheaply simulate billions of environment steps during training. Our trained agent exhibits strong physical reasoning capabilities, being able to zero-shot solve unseen human-designed environments. Furthermore, fine-tuning this general agent on tasks of interest shows significantly stronger performance than training an RL agent *tabula rasa*. This includes solving some environments that standard RL training completely fails at. We believe this demonstrates the feasibility of large scale, mixed-quality pre-training for online RL and we hope that Kinetix will serve as a useful framework to investigate this further.
arxiv情報
著者 | Michael Matthews,Michael Beukman,Chris Lu,Jakob Foerster |
発行日 | 2024-10-30 16:59:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google