要約
目標条件付き階層強化学習 (HRL) では、高レベルのポリシーは、低レベルのポリシーが到達するサブ目標を指定します。
効果的な HRL は、状態空間を潜在的なサブゴール空間に抽象化し、さまざまな低レベルの動作を誘導する、適切なサブゴール表現関数に依存します。
既存の方法は、状態空間から潜在サブゴール空間への決定論的なマッピングを提供するサブゴール表現を採用しています。
代わりに、この論文では、最初の確率的サブゴール表現にガウス過程 (GP) を利用します。
私たちの方法は、潜在サブゴール空間で事前 GP を使用して、学習可能なカーネルを通じて状態空間の長距離相関を利用しながら、サブゴール表現関数にわたる事後分布を学習します。
これにより、事前の計画ステップからの長距離サブゴール情報を統合する適応記憶が可能になり、確率的不確実性に対処できるようになります。
さらに、統一されたフレームワーク内で確率的なサブ目標表現とポリシーの同時学習を促進するための新しい学習目標を提案します。
実験では、当社のアプローチは標準ベンチマークだけでなく、確率的要素のある環境や多様な報酬条件下でも最先端のベースラインを上回りました。
さらに、私たちのモデルは、さまざまなタスク間で低レベルのポリシーを転送する際の有望な機能を示しています。
要約(オリジナル)
In goal-conditioned hierarchical reinforcement learning (HRL), a high-level policy specifies a subgoal for the low-level policy to reach. Effective HRL hinges on a suitable subgoal represen tation function, abstracting state space into latent subgoal space and inducing varied low-level behaviors. Existing methods adopt a subgoal representation that provides a deterministic mapping from state space to latent subgoal space. Instead, this paper utilizes Gaussian Processes (GPs) for the first probabilistic subgoal representation. Our method employs a GP prior on the latent subgoal space to learn a posterior distribution over the subgoal representation functions while exploiting the long-range correlation in the state space through learnable kernels. This enables an adaptive memory that integrates long-range subgoal information from prior planning steps allowing to cope with stochastic uncertainties. Furthermore, we propose a novel learning objective to facilitate the simultaneous learning of probabilistic subgoal representations and policies within a unified framework. In experiments, our approach outperforms state-of-the-art baselines in standard benchmarks but also in environments with stochastic elements and under diverse reward conditions. Additionally, our model shows promising capabilities in transferring low-level policies across different tasks.
arxiv情報
著者 | Vivienne Huiling Wang,Tinghuai Wang,Wenyan Yang,Joni-Kristian Kämäräinen,Joni Pajarinen |
発行日 | 2024-06-24 15:09:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google