要約
強化学習では、特に外部報酬が少ない環境では探索が不可欠です。
ここでは、エージェントが自己生成した固有の報酬で外部の報酬を一時的に増強する、固有の報酬による探索に焦点を当てます。
内発的報酬の研究には長い歴史がありますが、既存の方法は、状態の将来の見通しの尺度に基づいて内発的報酬を構成することに焦点を当てており、遷移シーケンスの遡及的構造に含まれる情報は無視されています。
ここで我々は、エージェントが遡及情報を利用して構造を認識した探索行動を生成し、ローカルな情報ではなくグローバルな情報に基づいた効率的な探索を促進できると主張します。
我々は、将来の情報と遡及的な情報を組み合わせた新しい内在的報酬に基づく探索アルゴリズムである、後続・先駆的内在探索 (SPIE) を提案します。
我々は、報酬がまばらでボトルネック状態にある環境において、SPIE が競合する手法よりも効率的で行動学的に妥当な探索行動を生み出すことを示します。
また、深層強化学習エージェントに SPIE を実装し、得られたエージェントが報酬の少ない Atari ゲームで既存の手法よりも強力な経験的パフォーマンスを達成することを示します。
要約(オリジナル)
Exploration is essential in reinforcement learning, particularly in environments where external rewards are sparse. Here we focus on exploration with intrinsic rewards, where the agent transiently augments the external rewards with self-generated intrinsic rewards. Although the study of intrinsic rewards has a long history, existing methods focus on composing the intrinsic reward based on measures of future prospects of states, ignoring the information contained in the retrospective structure of transition sequences. Here we argue that the agent can utilise retrospective information to generate explorative behaviour with structure-awareness, facilitating efficient exploration based on global instead of local information. We propose Successor-Predecessor Intrinsic Exploration (SPIE), an exploration algorithm based on a novel intrinsic reward combining prospective and retrospective information. We show that SPIE yields more efficient and ethologically plausible exploratory behaviour in environments with sparse rewards and bottleneck states than competing methods. We also implement SPIE in deep reinforcement learning agents, and show that the resulting agent achieves stronger empirical performance than existing methods on sparse-reward Atari games.
arxiv情報
| 著者 | Changmin Yu,Neil Burgess,Maneesh Sahani,Samuel J. Gershman | 
| 発行日 | 2024-01-25 15:58:06+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
