Proposing Hierarchical Goal-Conditioned Policy Planning in Multi-Goal Reinforcement Learning

要約

ヒューマノイドロボットは、報酬がまばらなタスクを数多くこなさなければならず、強化学習(RL)に課題を投げかけている。我々は、この課題に対処するために、RLと自動プランニングを組み合わせた手法を提案する。我々のアプローチでは、階層的に編成された短いゴール条件付き方針(GCP)を用い、高レベル行動(HLA)を用いたモンテカルロ木探索(MCTS)プランニングを行う。原始アクションの代わりに、計画プロセスはHLAを生成する。エージェントの生存期間中に維持される1本の計画木が、目標達成に関する知識を保持する。この階層構造は、HLAを再利用し、将来の行動を予測することで、サンプルの効率を高め、推論を高速化する。我々のHGCPP(Hierarchical Goal-Conditioned Policy Planning)フレームワークは、GCP、MCTS、階層的RLをユニークに統合し、複雑なタスクにおける探索と計画を改善する可能性がある。

要約(オリジナル)

Humanoid robots must master numerous tasks with sparse rewards, posing a challenge for reinforcement learning (RL). We propose a method combining RL and automated planning to address this. Our approach uses short goal-conditioned policies (GCPs) organized hierarchically, with Monte Carlo Tree Search (MCTS) planning using high-level actions (HLAs). Instead of primitive actions, the planning process generates HLAs. A single plan-tree, maintained during the agent’s lifetime, holds knowledge about goal achievement. This hierarchy enhances sample efficiency and speeds up reasoning by reusing HLAs and anticipating future actions. Our Hierarchical Goal-Conditioned Policy Planning (HGCPP) framework uniquely integrates GCPs, MCTS, and hierarchical RL, potentially improving exploration and planning in complex tasks.

arxiv情報

著者 Gavin B. Rens
発行日 2025-01-03 09:37:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク