Information Content Exploration

要約

報酬が少ない環境は、強化学習エージェントにとって困難であることが知られています。
このような環境では、効率的でスケーラブルな探索が非常に重要です。
探索は、エージェントが環境に関する情報を取得する手段です。
我々はこのトピックを拡張し、探索行動を体系的に定量化し、エージェントがたどる軌跡の情報内容を最大化することで状態の網羅性を促進する、新しい固有の報酬を提案します。
私たちの方法を、代替探索ベースの本質的報酬手法、つまり好奇心駆動学習とランダム ネットワーク蒸留と比較します。
私たちの情報理論的報酬が効率的な探索を誘発し、強化学習の難しいタスクとして知られるモンテズマ リベンジを含むさまざまなゲームで優れたパフォーマンスを発揮することを示します。
最後に、離散的に圧縮された潜在空間内の情報内容を最大化する拡張機能を提案します。これにより、サンプル効率が向上し、連続状態空間に一般化されます。

要約(オリジナル)

Sparse reward environments are known to be challenging for reinforcement learning agents. In such environments, efficient and scalable exploration is crucial. Exploration is a means by which an agent gains information about the environment. We expand on this topic and propose a new intrinsic reward that systemically quantifies exploratory behavior and promotes state coverage by maximizing the information content of a trajectory taken by an agent. We compare our method to alternative exploration based intrinsic reward techniques, namely Curiosity Driven Learning and Random Network Distillation. We show that our information theoretic reward induces efficient exploration and outperforms in various games, including Montezuma Revenge, a known difficult task for reinforcement learning. Finally, we propose an extension that maximizes information content in a discretely compressed latent space which boosts sample efficiency and generalizes to continuous state spaces.

arxiv情報

著者 Jacob Chmura,Hasham Burhani,Xiao Qi Shi
発行日 2023-10-10 16:51:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク