要約
探索効率は、目標条件付き強化学習 (GCRL) タスク、特に期間が長く報酬が少ないタスクにおいて、重大な課題を引き起こします。
探索効率に対する主な制限は、エージェントが環境の構造パターンを活用できないことです。
この研究では、学習プロセス中に適応的なスキル分布を通じてこれらのパターンを捉えるように設計された新しいフレームワーク GEASD を紹介します。
この分布は、コンテキストの範囲内で達成された目標のローカル エントロピーを最適化し、目標を広げる動作を強化し、よく知られた構造パターンを含む状態での深い探索を容易にします。
私たちの実験では、均一なスキル分布と比較して、適応スキル分布を使用した場合、探索効率が大幅に向上することが明らかになりました。
さらに、学習されたスキルの分布は堅牢な一般化機能を実証し、同様の局所構造を含む目に見えないタスクで大幅な探索の進歩を達成します。
要約(オリジナル)
Exploration efficiency poses a significant challenge in goal-conditioned reinforcement learning (GCRL) tasks, particularly those with long horizons and sparse rewards. A primary limitation to exploration efficiency is the agent’s inability to leverage environmental structural patterns. In this study, we introduce a novel framework, GEASD, designed to capture these patterns through an adaptive skill distribution during the learning process. This distribution optimizes the local entropy of achieved goals within a contextual horizon, enhancing goal-spreading behaviors and facilitating deep exploration in states containing familiar structural patterns. Our experiments reveal marked improvements in exploration efficiency using the adaptive skill distribution compared to a uniform skill distribution. Additionally, the learned skill distribution demonstrates robust generalization capabilities, achieving substantial exploration progress in unseen tasks containing similar local structures.
arxiv情報
著者 | Lisheng Wu,Ke Chen |
発行日 | 2024-04-19 16:54:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google