Accelerating Model-Based Reinforcement Learning with State-Space World Models

要約

強化学習(RL)は、ロボット学習の強力なアプローチです。
ただし、モデルフリーRL(MFRL)には、成功した制御ポリシーを学習するには、多数の環境相互作用が必要です。
これは、騒々しいRLトレーニングの更新とロボットシステムの複雑さによるもので、通常、非常に非線形ダイナミクスとノイズの多いセンサー信号が含まれます。
対照的に、モデルベースのRL(MBRL)はポリシーを訓練するだけでなく、同時に環境のダイナミクスと報酬をキャプチャする世界モデルを学習します。
世界モデルは、計画、データ収集のために、またはトレーニング用の1次ポリシーグラデーションを提供するために使用できます。
世界モデルを活用すると、モデルのないRLと比較してサンプル効率が大幅に向上します。
ただし、ポリシーに沿って世界モデルをトレーニングすると、計算の複雑さが高まり、複雑な実世界のシナリオでは扱いにくいトレーニング時間が長くなります。
この作業では、状態空間世界モデルを使用してモデルベースのRLを加速するための新しい方法を提案します。
私たちのアプローチは、状態空間モデル(SSM)を活用して、通常、主要な計算ボトルネックであるダイナミクスモデルのトレーニングを並行しています。
さらに、トレーニング中に世界モデルに特権情報を提供するアーキテクチャを提案します。これは、部分的に観察可能な環境に特に関連しています。
完全および部分的に観察可能な環境の両方で、複雑なダイナミクスを含む、いくつかの実際のアジャイル四輪飛行タスクでの方法を評価します。
大幅なスピードアップを実証し、世界モデルのトレーニング時間を最大10倍短縮し、MBRLトレーニング時間全体を最大4回短縮します。
このメリットは、パフォーマンスを損なうことなくもたらされます。これは、私たちの方法が同様のサンプル効率と最先端のMBRLメソッドに対するタスクの報酬を達成するためです。

要約(オリジナル)

Reinforcement learning (RL) is a powerful approach for robot learning. However, model-free RL (MFRL) requires a large number of environment interactions to learn successful control policies. This is due to the noisy RL training updates and the complexity of robotic systems, which typically involve highly non-linear dynamics and noisy sensor signals. In contrast, model-based RL (MBRL) not only trains a policy but simultaneously learns a world model that captures the environment’s dynamics and rewards. The world model can either be used for planning, for data collection, or to provide first-order policy gradients for training. Leveraging a world model significantly improves sample efficiency compared to model-free RL. However, training a world model alongside the policy increases the computational complexity, leading to longer training times that are often intractable for complex real-world scenarios. In this work, we propose a new method for accelerating model-based RL using state-space world models. Our approach leverages state-space models (SSMs) to parallelize the training of the dynamics model, which is typically the main computational bottleneck. Additionally, we propose an architecture that provides privileged information to the world model during training, which is particularly relevant for partially observable environments. We evaluate our method in several real-world agile quadrotor flight tasks, involving complex dynamics, for both fully and partially observable environments. We demonstrate a significant speedup, reducing the world model training time by up to 10 times, and the overall MBRL training time by up to 4 times. This benefit comes without compromising performance, as our method achieves similar sample efficiency and task rewards to state-of-the-art MBRL methods.

arxiv情報

著者 Maria Krinner,Elie Aljalbout,Angel Romero,Davide Scaramuzza
発行日 2025-02-27 15:05:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, cs.RO, I.2.10, stat.ML パーマリンク