要約
強化学習(RL)は、複雑なタスクでは目覚ましい結果を達成しましたが、さまざまな実施形態によるマルチタスク設定では困難を伴います。
ワールド モデルは、環境のシミュレーションを学習することでスケーラビリティを提供しますが、多くの場合、非効率的な勾配のない最適化手法に依存しています。
大規模なマルチタスク世界モデルから継続的な制御ポリシーを学習する新しいモデルベースの RL アルゴリズムである大規模世界モデル (PWM) によるポリシー学習を紹介します。
オフライン データでワールド モデルを事前トレーニングし、それを一次勾配ポリシー学習に使用することにより、PWM は最大 152 のアクション ディメンションを持つタスクを効果的に解決し、グラウンド トゥルース ダイナミクスを使用する方法よりも優れたパフォーマンスを発揮します。
さらに、PWM は 80 タスク設定にスケールし、高価なオンライン計画を必要とせずに、既存のベースラインより最大 27% 高い報酬を達成します。
ビジュアライゼーションとコードは https://policy-world-model.github.io で入手できます。
要約(オリジナル)
Reinforcement Learning (RL) has achieved impressive results on complex tasks but struggles in multi-task settings with different embodiments. World models offer scalability by learning a simulation of the environment, yet they often rely on inefficient gradient-free optimization methods. We introduce Policy learning with large World Models (PWM), a novel model-based RL algorithm that learns continuous control policies from large multi-task world models. By pre-training the world model on offline data and using it for first-order gradient policy learning, PWM effectively solves tasks with up to 152 action dimensions and outperforms methods using ground-truth dynamics. Additionally, PWM scales to an 80-task setting, achieving up to 27% higher rewards than existing baselines without the need for expensive online planning. Visualizations and code available at https://policy-world-model.github.io
arxiv情報
著者 | Ignat Georgiev,Varun Giridhar,Nicklas Hansen,Animesh Garg |
発行日 | 2024-07-02 17:47:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google