Enhanced Generalization through Prioritization and Diversity in Self-Imitation Reinforcement Learning over Procedural Environments with Sparse Rewards

要約

探索は、報酬がまばらな強化学習 (RL) において根本的な課題を引き起こし、有益なフィードバック信号の欠如によりエージェントが最適な意思決定を学習する能力を制限します。
自己模倣学習 (self-IL) は、成功した動作を保存および再現するためにリプレイ バッファーを利用する、探索のための有望なアプローチとして浮上しました。
ただし、ハイリターンの遷移に依存し、シングルトン環境を前提とする従来のセルフ IL 手法は、特に手続き的に生成された (PCG) 環境において、一般化において課題に直面しています。
したがって、どのエクスペリエンスを保持するかをランク付けするための新しい自己 IL 方法が提案されていますが、それらは重要性に関係なく遷移を均一に再生し、保存されたデモンストレーションの多様性には対応していません。
この研究では、さまざまな方法で移行に優先順位を付け、優先順位付け手法を PCG 環境に拡張することで、カスタマイズされたセルフ IL サンプリング戦略を提案します。
また、一般化要件や優先順位付け手法によって導入されるバイアスの影響を打ち消すための修正を通じて、多様性の損失にも対処します。
MiniGrid と ProcGen を含む 3 つの PCG スパース報酬環境で実施された実験分析では、提案された変更の利点が強調され、MiniGrid-MultiRoom-N12-S10 環境で新しい最先端のパフォーマンスが実現されました。

要約(オリジナル)

Exploration poses a fundamental challenge in Reinforcement Learning (RL) with sparse rewards, limiting an agent’s ability to learn optimal decision-making due to a lack of informative feedback signals. Self-Imitation Learning (self-IL) has emerged as a promising approach for exploration, leveraging a replay buffer to store and reproduce successful behaviors. However, traditional self-IL methods, which rely on high-return transitions and assume singleton environments, face challenges in generalization, especially in procedurally-generated (PCG) environments. Therefore, new self-IL methods have been proposed to rank which experiences to persist, but they replay transitions uniformly regardless of their significance, and do not address the diversity of the stored demonstrations. In this work, we propose tailored self-IL sampling strategies by prioritizing transitions in different ways and extending prioritization techniques to PCG environments. We also address diversity loss through modifications to counteract the impact of generalization requirements and bias introduced by prioritization techniques. Our experimental analysis, conducted over three PCG sparse reward environments, including MiniGrid and ProcGen, highlights the benefits of our proposed modifications, achieving a new state-of-the-art performance in the MiniGrid-MultiRoom-N12-S10 environment.

arxiv情報

著者 Alain Andres,Daochen Zha,Javier Del Ser
発行日 2023-11-01 10:40:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク