Landmark Guided Active Exploration with State-specific Balance Coefficient

要約

目標条件付き階層強化学習 (GCHRL) は、階層フレームワークを通じて長期タスクをサブタスクに分解し、さまざまなドメインにわたって有望な結果が実証されています。
ただし、高レベルのポリシーのアクション スペースは多くの場合過度に大きいため、効果的な探索に大きな課題が生じ、トレーニングが非効率になる可能性があります。
本稿では、目標条件付き価値関数に基づいて目標空間内で計画を立てることにより、サブ目標の見通しの尺度を設計します。
見通しの尺度に基づいて、エージェントが効率的に探索し、サンプル効率を向上させることを目的とした、見通しと新規性の尺度を統合することにより、ランドマークに基づく探索戦略を提案します。
探査に対する有望性と新規性の影響を動的に考慮するために、有望性と新規性の重要性のバランスをとる州固有のバランス係数を導入します。
実験結果は、私たちが提案した探索戦略が、複数のタスクにわたってベースライン手法よりも大幅に優れていることを示しています。

要約(オリジナル)

Goal-conditioned hierarchical reinforcement learning (GCHRL) decomposes long-horizon tasks into sub-tasks through a hierarchical framework and it has demonstrated promising results across a variety of domains. However, the high-level policy’s action space is often excessively large, presenting a significant challenge to effective exploration and resulting in potentially inefficient training. In this paper, we design a measure of prospect for sub-goals by planning in the goal space based on the goal-conditioned value function. Building upon the measure of prospect, we propose a landmark-guided exploration strategy by integrating the measures of prospect and novelty which aims to guide the agent to explore efficiently and improve sample efficiency. In order to dynamically consider the impact of prospect and novelty on exploration, we introduce a state-specific balance coefficient to balance the significance of prospect and novelty. The experimental results demonstrate that our proposed exploration strategy significantly outperforms the baseline methods across multiple tasks.

arxiv情報

著者 Fei Cui,Jiaojiao Fang,Mengke Yang,Guizhong Liu
発行日 2024-04-17 16:19:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク