DEIR: Efficient and Robust Exploration through Discriminative-Model-Based Episodic Intrinsic Rewards

要約

探索は強化学習 (RL) の基本的な側面であり、その有効性は、特にまばらな外部報酬に直面した場合、RL アルゴリズムのパフォーマンスの決定要因となります。
最近の研究では、観察における新規性から推定される本質的な報酬によって探索を促進することが効果的であることが示されています。
ただし、環境の確率性とエージェントの行動の両方が観察に影響を与える可能性があるため、観察と探索の新規性の間にはギャップがあります。
探索行動を正確に評価するために、我々は DEIR を提案します。これは、主にエージェントの探索によって寄与される新規性に応じてスケールする条件付き相互情報量項を使用して本質的な報酬を理論的に導出し、その後、識別順モデルを使用して報酬を実装する新しい方法です。
MiniGrid での標準探索タスクと高度な探索タスクの両方に関する広範な実験により、DEIR がベースラインよりも優れたポリシーを迅速に学習することが示されました。
ProcGen に関する私たちの評価は、私たちの本質的な報酬の一般化能力と一般的な適用可能性の両方を実証しています。
私たちのソースコードは https://github.com/swan-utokyo/deir で入手できます。

要約(オリジナル)

Exploration is a fundamental aspect of reinforcement learning (RL), and its effectiveness is a deciding factor in the performance of RL algorithms, especially when facing sparse extrinsic rewards. Recent studies have shown the effectiveness of encouraging exploration with intrinsic rewards estimated from novelties in observations. However, there is a gap between the novelty of an observation and an exploration, as both the stochasticity in the environment and the agent’s behavior may affect the observation. To evaluate exploratory behaviors accurately, we propose DEIR, a novel method in which we theoretically derive an intrinsic reward with a conditional mutual information term that principally scales with the novelty contributed by agent explorations, and then implement the reward with a discriminative forward model. Extensive experiments on both standard and advanced exploration tasks in MiniGrid show that DEIR quickly learns a better policy than the baselines. Our evaluations on ProcGen demonstrate both the generalization capability and the general applicability of our intrinsic reward. Our source code is available at https://github.com/swan-utokyo/deir.

arxiv情報

著者 Shanchuan Wan,Yujin Tang,Yingtao Tian,Tomoyuki Kaneko
発行日 2023-05-18 15:42:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, math.IT パーマリンク