要約
強化学習(RL)は複雑なタスクにおいて素晴らしい結果を達成しているが、異なる実施形態を持つマルチタスク設定では苦戦している。ワールドモデルは環境のシミュレーションを学習することでスケーラビリティを提供するが、非効率な勾配なし最適化手法に依存することが多い。我々は、大規模なマルチタスク世界モデルから連続的な制御方針を学習する、新しいモデルベースRLアルゴリズムである大規模世界モデルによる方針学習(Policy learning with large World Models: PWM)を紹介する。オフラインデータでワールドモデルを事前学習し、それを一次勾配政策学習に用いることで、PWMは最大152アクション次元のタスクを効果的に解き、グランドトゥルースダイナミクスを用いる手法よりも優れた性能を発揮する。さらに、PWMは80タスクの設定まで拡張し、高価なオンラインプランニングを必要とすることなく、既存のベースラインよりも最大27%高い報酬を達成する。可視化とコードはhttps://www.imgeorgiev.com/pwm。
要約(オリジナル)
Reinforcement Learning (RL) has achieved impressive results on complex tasks but struggles in multi-task settings with different embodiments. World models offer scalability by learning a simulation of the environment, yet they often rely on inefficient gradient-free optimization methods. We introduce Policy learning with large World Models (PWM), a novel model-based RL algorithm that learns continuous control policies from large multi-task world models. By pre-training the world model on offline data and using it for first-order gradient policy learning, PWM effectively solves tasks with up to 152 action dimensions and outperforms methods using ground-truth dynamics. Additionally, PWM scales to an 80-task setting, achieving up to 27% higher rewards than existing baselines without the need for expensive online planning. Visualizations and code available at https://www.imgeorgiev.com/pwm
arxiv情報
著者 | Ignat Georgiev,Varun Giridhar,Nicklas Hansen,Animesh Garg |
発行日 | 2024-07-03 13:24:02+00:00 |
arxivサイト | arxiv_id(pdf) |