DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents

要約

階層補強学習(HRL)エージェントは、エラーが発生しやすい距離メトリックに依存しているため、しばしば長老視覚計画に苦労しています。
個別の階層計画(DHP)を提案します。これは、連続距離推定値を個別の到達可能性チェックに置き換えて、サブゴールの実現可能性を評価する方法です。
DHPは、長期目標をより単純なサブタスクのシーケンスに分解することにより、ツリー構造計画を再帰的に構築します。
さらに、データ効率の課題に対処するために、専門家のデータを必要とせずに計画モジュールのターゲットトレーニングの例を生成する探索戦略を紹介します。
25室のナビゲーション環境での実験では、100ドルの成功率($ 82 \%$ $ベースライン)および73ドルの平均エピソード長(vs $ 158 $ stepベースライン)を示しています。
また、この方法は、運動量ベースの制御タスクに一般化され、再生には$ \ log n $ステップのみが必要です。
理論分析とアブレーションは、設計の選択を検証します。

要約(オリジナル)

Hierarchical Reinforcement Learning (HRL) agents often struggle with long-horizon visual planning due to their reliance on error-prone distance metrics. We propose Discrete Hierarchical Planning (DHP), a method that replaces continuous distance estimates with discrete reachability checks to evaluate subgoal feasibility. DHP recursively constructs tree-structured plans by decomposing long-term goals into sequences of simpler subtasks, using a novel advantage estimation strategy that inherently rewards shorter plans and generalizes beyond training depths. In addition, to address the data efficiency challenge, we introduce an exploration strategy that generates targeted training examples for the planning modules without needing expert data. Experiments in 25-room navigation environments demonstrate $100\%$ success rate (vs $82\%$ baseline) and $73$-step average episode length (vs $158$-step baseline). The method also generalizes to momentum-based control tasks and requires only $\log N$ steps for replanning. Theoretical analysis and ablations validate our design choices.

arxiv情報

著者 Shashank Sharma,Janina Hoffmann,Vinay Namboodiri
発行日 2025-05-27 15:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク