要約
タイトル:長期的な新奇性に基づく探索において表象の力を引き出す方法の解析
要約:
– 「Robust Exploration via Clustering-based Online Density Estimation (RECODE)」により、選択した埋め込み空間の類似度に基づいて状態のクラスタの訪問回数を推定し、新奇性に基づく探索のための非パラメトリックな手法を提唱する。
– RECODEは、Deep RLのノンステーショナリティの設定に古典的なクラスタリングを適応することにより、数千エピソードにわたって状態の訪問回数を効率的に追跡することができる。
– さらに、マスキングトランスフォーマーアーキテクチャを使用して、多段予測と逆動力学の損失の新しい汎化方法を提案し、RECODEと併用することで、DM-Hard-8の難しい3D探索タスクの一連の新しい最先端を実現する。
– RECODEは、ハードな探索Atariゲームでも新たな最先端に達し、「Pitfall!」でエンドスクリーンに到達する最初のエージェントでもある。
要約(オリジナル)
We introduce Robust Exploration via Clustering-based Online Density Estimation (RECODE), a non-parametric method for novelty-based exploration that estimates visitation counts for clusters of states based on their similarity in a chosen embedding space. By adapting classical clustering to the nonstationary setting of Deep RL, RECODE can efficiently track state visitation counts over thousands of episodes. We further propose a novel generalization of the inverse dynamics loss, which leverages masked transformer architectures for multi-step prediction; which in conjunction with RECODE achieves a new state-of-the-art in a suite of challenging 3D-exploration tasks in DM-Hard-8. RECODE also sets new state-of-the-art in hard exploration Atari games, and is the first agent to reach the end screen in ‘Pitfall!’.
arxiv情報
著者 | Alaa Saade,Steven Kapturowski,Daniele Calandriello,Charles Blundell,Pablo Sprechmann,Leopoldo Sarra,Oliver Groth,Michal Valko,Bilal Piot |
発行日 | 2023-05-02 15:29:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI