要約
タイトル:DEIR:識別モデルに基づくエピソード状態下固有報酬を用いた効率的かつ堅牢な探索
要約:
– 探索は強化学習にとって基本的な要素であり、不十分な外在報酬に直面した場合には特に探索の効果が重要です。
– 最近の研究では、観測の新しさから推定された内在報酬によって探索を奨励することの効果が示されています。
– しかし、環境の不確実性やエージェントの行動によって観測に影響が出るため、観測の新しさと一般的な探索にはギャップがあります。
– 正確に探索を推定するために、我々はDEIRという新しい方法を提案します。DEIRは、条件付き相互情報量項から内在報酬を理論的に導出し、エージェントの探索によって提供される新規性に主にスケーリングされます。そして、これを識別的前向モデルで具現化します。
– 我々は、MiniGridの標準と強化された探索ゲームの両方で大規模な実験を行い、DEIRがベースラインよりも速くより良い方策を学習することを示します。
– ProcGenでの評価は、内在報酬の一般的な適用可能性と汎化能力を示しています。
要約(オリジナル)
Exploration is a fundamental aspect of reinforcement learning (RL), and its effectiveness crucially decides the performance of RL algorithms, especially when facing sparse extrinsic rewards. Recent studies showed the effectiveness of encouraging exploration with intrinsic rewards estimated from novelty in observations. However, there is a gap between the novelty of an observation and an exploration in general, because the stochasticity in the environment as well as the behavior of an agent may affect the observation. To estimate exploratory behaviors accurately, we propose DEIR, a novel method where we theoretically derive an intrinsic reward from a conditional mutual information term that principally scales with the novelty contributed by agent explorations, and materialize the reward with a discriminative forward model. We conduct extensive experiments in both standard and hardened exploration games in MiniGrid to show that DEIR quickly learns a better policy than baselines. Our evaluations in ProcGen demonstrate both generalization capabilities and the general applicability of our intrinsic reward.
arxiv情報
著者 | Shanchuan Wan,Yujin Tang,Yingtao Tian,Tomoyuki Kaneko |
発行日 | 2023-04-21 06:39:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI