TransDreamer: Reinforcement Learning with Transformer World Models

要約

Dreamer エージェントは、サンプル効率、再利用可能な知識、安全な計画など、モデルベース強化学習 (MBRL) のさまざまな利点を提供します。
ただし、そのワールド モデルとポリシー ネットワークはリカレント ニューラル ネットワークの制限を継承しているため、重要な問題は、MBRL フレームワークが最近のトランスフォーマーの進歩からどのように恩恵を受けることができるか、またその際の課題は何かということです。
この論文では、TransDreamer と呼ばれるトランスフォーマーベースの MBRL エージェントを提案します。
まず、ダイナミクス予測にトランスフォーマーを活用する世界モデルであるトランスフォーマー状態空間モデルを紹介します。
次に、このワールド モデルをトランスフォーマー ベースのポリシー ネットワークと共有し、トランスフォーマー ベースの RL エージェントのトレーニングの安定性を獲得します。
実験では、提案されたモデルを 2D ビジュアル RL タスクと 3D 一人称ビジュアル RL タスクに適用します。どちらもメモリベースの推論のために長距離メモリ アクセスを必要とします。
提案されたモデルがこれらの複雑なタスクにおいて Dreamer よりも優れていることを示します。

要約(オリジナル)

The Dreamer agent provides various benefits of Model-Based Reinforcement Learning (MBRL) such as sample efficiency, reusable knowledge, and safe planning. However, its world model and policy networks inherit the limitations of recurrent neural networks and thus an important question is how an MBRL framework can benefit from the recent advances of transformers and what the challenges are in doing so. In this paper, we propose a transformer-based MBRL agent, called TransDreamer. We first introduce the Transformer State-Space Model, a world model that leverages a transformer for dynamics predictions. We then share this world model with a transformer-based policy network and obtain stability in training a transformer-based RL agent. In experiments, we apply the proposed model to 2D visual RL and 3D first-person visual RL tasks both requiring long-range memory access for memory-based reasoning. We show that the proposed model outperforms Dreamer in these complex tasks.

arxiv情報

著者 Chang Chen,Yi-Fu Wu,Jaesik Yoon,Sungjin Ahn
発行日 2024-11-19 16:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク