要約
TD-MPC は、学習された暗黙的 (デコーダーなし) ワールド モデルの潜在空間でローカル軌道の最適化を実行するモデルベースの強化学習 (RL) アルゴリズムです。
この研究では、TD-MPC アルゴリズムの一連の改良である TD-MPC2 を紹介します。
私たちは、TD-MPC2 が 4 つの多様なタスク ドメインにわたる 104 のオンライン RL タスクにわたってベースラインを大幅に改善し、単一セットのハイパーパラメータで一貫して強力な結果を達成することを実証しました。
さらに、モデルとデータのサイズに応じてエージェントの機能が増加し、単一の 317M パラメータ エージェントが複数のタスク ドメイン、実施形態、およびアクション スペースにわたって 80 のタスクを実行するように正常にトレーニングされることを示します。
最後に、大規模な TD-MPC2 エージェントに関連する教訓、機会、リスクについて説明します。
https://tdmpc2.com でビデオ、モデル、データ、コードなどを探索してください。
要約(オリジナル)
TD-MPC is a model-based reinforcement learning (RL) algorithm that performs local trajectory optimization in the latent space of a learned implicit (decoder-free) world model. In this work, we present TD-MPC2: a series of improvements upon the TD-MPC algorithm. We demonstrate that TD-MPC2 improves significantly over baselines across 104 online RL tasks spanning 4 diverse task domains, achieving consistently strong results with a single set of hyperparameters. We further show that agent capabilities increase with model and data size, and successfully train a single 317M parameter agent to perform 80 tasks across multiple task domains, embodiments, and action spaces. We conclude with an account of lessons, opportunities, and risks associated with large TD-MPC2 agents. Explore videos, models, data, code, and more at https://tdmpc2.com
arxiv情報
著者 | Nicklas Hansen,Hao Su,Xiaolong Wang |
発行日 | 2024-03-21 17:56:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google