要約
報酬が少ない環境では、探索のための適切な誘導バイアスを見つけることがエージェントの成功にとって重要です。
ただし、新規性の探索と体系的な探索という 2 つの競合する目標があります。
好奇心主導の探索などの既存のアプローチは新規性を見出しますが、深さ優先探索と幅優先探索に似て、状態空間全体を体系的に探索しない場合があります。
この論文では、サイクルフォビックな新しい内在的報酬を提案します。つまり、新規性には報酬を与えず、サイクルを回避することで冗長性を罰します。
エージェントの切り取られた観察に基づく一連の階層表現で嫌悪感のある固有の報酬を強化することで、MiniGrid および MiniHack 環境で優れた結果を達成することができます。
どちらも、解決するにはさまざまなオブジェクトとの複雑な相互作用が必要なため、特に困難です。
以前のアプローチとの詳細な比較と徹底したアブレーション研究により、私たちが新しく提案した閉環性強化学習は、さまざまなタスクにおいて他の最先端の方法よりもサンプル効率が高いことが示されています。
要約(オリジナル)
In environments with sparse rewards, finding a good inductive bias for exploration is crucial to the agent’s success. However, there are two competing goals: novelty search and systematic exploration. While existing approaches such as curiosity-driven exploration find novelty, they sometimes do not systematically explore the whole state space, akin to depth-first-search vs breadth-first-search. In this paper, we propose a new intrinsic reward that is cyclophobic, i.e., it does not reward novelty, but punishes redundancy by avoiding cycles. Augmenting the cyclophobic intrinsic reward with a sequence of hierarchical representations based on the agent’s cropped observations we are able to achieve excellent results in the MiniGrid and MiniHack environments. Both are particularly hard, as they require complex interactions with different objects in order to be solved. Detailed comparisons with previous approaches and thorough ablation studies show that our newly proposed cyclophobic reinforcement learning is more sample efficient than other state of the art methods in a variety of tasks.
arxiv情報
著者 | Stefan Sylvius Wagner,Peter Arndt,Jan Robine,Stefan Harmeling |
発行日 | 2023-08-30 09:38:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google