要約
ディープ ニューラル ネットワークは、多くの強化学習の設定で成功しています。
しかし、人間の学習者と比較すると、彼らは過度にデータに飢えています。
サンプル効率の高い世界モデルを構築するために、トランスフォーマーを現実世界のエピソードに自己回帰的に適用します。コンパクトな潜在状態と実行されたアクションだけでなく、経験または予測された報酬もトランスフォーマーに供給されるため、
異なる時間ステップで 3 つのモダリティすべてに柔軟に対応します。
トランスフォーマーにより、世界モデルは、圧縮された反復状態を介して表示するのではなく、以前の状態に直接アクセスできます。
Transformer-XL アーキテクチャを利用することで、計算効率を維持しながら長期的な依存関係を学習できます。
当社のトランスフォーマー ベースのワールド モデル (TWM) は、意味のある新しいエクスペリエンスを生成します。これは、Atari 100k ベンチマークで以前のモデルフリーおよびモデルベースの強化学習アルゴリズムよりも優れたポリシーをトレーニングするために使用されます。
要約(オリジナル)
Deep neural networks have been successful in many reinforcement learning settings. However, compared to human learners they are overly data hungry. To build a sample-efficient world model, we apply a transformer to real-world episodes in an autoregressive manner: not only the compact latent states and the taken actions but also the experienced or predicted rewards are fed into the transformer, so that it can attend flexibly to all three modalities at different time steps. The transformer allows our world model to access previous states directly, instead of viewing them through a compressed recurrent state. By utilizing the Transformer-XL architecture, it is able to learn long-term dependencies while staying computationally efficient. Our transformer-based world model (TWM) generates meaningful, new experience, which is used to train a policy that outperforms previous model-free and model-based reinforcement learning algorithms on the Atari 100k benchmark.
arxiv情報
著者 | Jan Robine,Marc Höftmann,Tobias Uelwer,Stefan Harmeling |
発行日 | 2023-03-13 13:43:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google