要約
本研究の焦点は、シミュレータを用いたサンプル効率の良い深層強化学習(RL)である。シミュレータの有用な特性の一つは、通常、環境を以前に観測された状態にリセットすることが容易であることである。我々は、この性質を利用した、不確実性優先局所計画(UFLP)と名付けられたアルゴリズムの枠組みを提案する。具体的には、データ収集の各反復において、ある確率で、我々のメタアルゴリズムは、初期状態分布に従ってサンプリングするのではなく、不確実性の高い観測状態に環境をリセットする。エージェントと環境の相互作用は、標準的なオンラインRL設定と同様に進行する。この単純な手順により、困難な探索タスクにおいて、いくつかのベースラインRLアルゴリズムのサンプルコストを劇的に改善できることを示す。特に、我々のフレームワークを用いることで、単純な(分布的な)二重DQNで、有名な難しいアタリゲーム「モンテズマの復讐」において超人的な性能を達成することができる。我々の研究は、理論的に保証された既存のアルゴリズムの効率的な近似実装とみなすことができ、これは肯定的な経験的結果の解釈を提供する。
要約(オリジナル)
The focus of this work is sample-efficient deep reinforcement learning (RL) with a simulator. One useful property of simulators is that it is typically easy to reset the environment to a previously observed state. We propose an algorithmic framework, named uncertainty-first local planning (UFLP), that takes advantage of this property. Concretely, in each data collection iteration, with some probability, our meta-algorithm resets the environment to an observed state which has high uncertainty, instead of sampling according to the initial-state distribution. The agent-environment interaction then proceeds as in the standard online RL setting. We demonstrate that this simple procedure can dramatically improve the sample cost of several baseline RL algorithms on difficult exploration tasks. Notably, with our framework, we can achieve super-human performance on the notoriously hard Atari game, Montezuma’s Revenge, with a simple (distributional) double DQN. Our work can be seen as an efficient approximate implementation of an existing algorithm with theoretical guarantees, which offers an interpretation of the positive empirical results.
arxiv情報
著者 | Dong Yin,Sridhar Thiagarajan,Nevena Lazic,Nived Rajaraman,Botao Hao,Csaba Szepesvari |
発行日 | 2023-07-03 04:36:44+00:00 |
arxivサイト | arxiv_id(pdf) |