Transformers are Sample Efficient World Models

要約

深層強化学習エージェントはサンプルの効率が悪いことで有名であり、実際の問題への適用がかなり制限されます。
最近、この問題に対処するために多くのモデルベースの方法が設計されており、世界モデルの想像力の中で学習することが最も顕著なアプローチの 1 つです。
ただし、シミュレートされた環境との実質的に無制限の相互作用は魅力的に聞こえますが、世界モデルは長期間にわたって正確でなければなりません。
シーケンス モデリング タスクにおける Transformer の成功に動機付けられて、離散オートエンコーダーと自己回帰 Transformer で構成される世界モデルで学習するデータ効率の高いエージェントである IRIS を紹介します。
Atari 100k ベンチマークでわずか 2 時間のゲームプレイに相当するもので、IRIS は 1.046 の平均人間正規化スコアを達成し、26 ゲーム中 10 ゲームで人間を上回っています。
私たちのアプローチは、先読み検索のないメソッドの新しい最先端技術を確立し、MuZero をも凌駕します。
サンプル効率の高い強化学習のためのトランスフォーマーと世界モデルに関する将来の研究を促進するために、https://github.com/eloialonso/iris でコードベースをリリースします。

要約(オリジナル)

Deep reinforcement learning agents are notoriously sample inefficient, which considerably limits their application to real-world problems. Recently, many model-based methods have been designed to address this issue, with learning in the imagination of a world model being one of the most prominent approaches. However, while virtually unlimited interaction with a simulated environment sounds appealing, the world model has to be accurate over extended periods of time. Motivated by the success of Transformers in sequence modeling tasks, we introduce IRIS, a data-efficient agent that learns in a world model composed of a discrete autoencoder and an autoregressive Transformer. With the equivalent of only two hours of gameplay in the Atari 100k benchmark, IRIS achieves a mean human normalized score of 1.046, and outperforms humans on 10 out of 26 games. Our approach sets a new state of the art for methods without lookahead search, and even surpasses MuZero. To foster future research on Transformers and world models for sample-efficient reinforcement learning, we release our codebase at https://github.com/eloialonso/iris.

arxiv情報

著者 Vincent Micheli,Eloi Alonso,François Fleuret
発行日 2022-09-01 17:03:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク