要約
このホワイト ペーパーでは、強化学習 (RL) における探索のための Go-Explore パラダイムに基づく単純で一般的なアプローチである、Latent Go-Explore (LGE) を紹介します。
Go-Explore は当初、状態空間をセルに分割するための強力なドメイン知識制約と共に導入されました。
ただし、ほとんどの現実のシナリオでは、生の観察からドメイン知識を引き出すことは複雑で面倒です。
セルの分割が十分な情報を提供しない場合、Go-Explore は環境の探索に完全に失敗する可能性があります。
Go-Explore アプローチは、学習した潜在表現を活用することで、ドメイン知識がなくてもセルがなくても、あらゆる環境に一般化できると主張します。
したがって、潜在表現を学習するための任意の戦略と LGE を柔軟に組み合わせることができることを示します。
私たちの結果は、LGE は Go-Explore よりも単純ですが、Montezuma’s Revenge を含む複数のハード探索環境での純粋な探索に関して、より堅牢であり、最先端のアルゴリズムよりも優れていることを示しています。
LGE の実装は、https://github.com/qgallouedec/lge でオープンソースとして入手できます。
要約(オリジナル)
In this paper, we introduce Latent Go-Explore (LGE), a simple and general approach based on the Go-Explore paradigm for exploration in reinforcement learning (RL). Go-Explore was initially introduced with a strong domain knowledge constraint for partitioning the state space into cells. However, in most real-world scenarios, drawing domain knowledge from raw observations is complex and tedious. If the cell partitioning is not informative enough, Go-Explore can completely fail to explore the environment. We argue that the Go-Explore approach can be generalized to any environment without domain knowledge and without cells by exploiting a learned latent representation. Thus, we show that LGE can be flexibly combined with any strategy for learning a latent representation. Our results indicate that LGE, although simpler than Go-Explore, is more robust and outperforms state-of-the-art algorithms in terms of pure exploration on multiple hard-exploration environments including Montezuma’s Revenge. The LGE implementation is available as open-source at https://github.com/qgallouedec/lge.
arxiv情報
著者 | Quentin Gallouédec,Emmanuel Dellandréa |
発行日 | 2023-02-17 14:35:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google