要約
本論文では、強化学習における探索について表現中心の視点を採用し、探索を基本的に密度推定問題として捉える。遷移間の画素変化の重要性は、遷移間の画素変化が一般的に明瞭で重要である2次元環境と比較して、3次元環境ではあまり顕著ではないという観察に基づいて、3次元環境における探索のためのクラスタリング表現の有効性を調べる。我々は、ランダム表現と事前に訓練されたDINO表現に対してエピソード的かつ大域的なクラスタリングを行い、状態をカウントする、すなわち擬似カウントを推定する手法を提案する。驚くべきことに、3次元環境ではランダムな特徴でも効果的にクラスタリングして状態を数えることができるが、これらが視覚的に複雑になると、事前に訓練されたDINO表現の方が、事前に訓練された表現内の帰納的バイアスのおかげで効果的である。全体として、これは事前に訓練されたバイアスを探索に統合する経路を提示する。VizDoom環境とHabitat環境で本アプローチを評価し、本手法がこれらの環境において他のよく知られた探索手法を凌駕することを実証する。
要約(オリジナル)
In this paper we adopt a representation-centric perspective on exploration in reinforcement learning, viewing exploration fundamentally as a density estimation problem. We investigate the effectiveness of clustering representations for exploration in 3-D environments, based on the observation that the importance of pixel changes between transitions is less pronounced in 3-D environments compared to 2-D environments, where pixel changes between transitions are typically distinct and significant. We propose a method that performs episodic and global clustering on random representations and on pre-trained DINO representations to count states, i.e, estimate pseudo-counts. Surprisingly, even random features can be clustered effectively to count states in 3-D environments, however when these become visually more complex, pre-trained DINO representations are more effective thanks to the pre-trained inductive biases in the representations. Overall, this presents a pathway for integrating pre-trained biases into exploration. We evaluate our approach on the VizDoom and Habitat environments, demonstrating that our method surpasses other well-known exploration methods in these settings.
arxiv情報
著者 | Stefan Sylvius Wagner,Stefan Harmeling |
発行日 | 2024-02-05 16:08:58+00:00 |
arxivサイト | arxiv_id(pdf) |