PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning

要約

階層強化学習 (HRL) には、時間的な抽象化と探索の強化を使用して、複雑な長期タスクを解決できる可能性があります。
ただし、階層エージェントは固有の非定常性があるため、トレーニングが困難です。
我々は、プリミティブ対応適応型再ラベル付け (PEAR) を紹介します。これは、最初にいくつかの専門家のデモンストレーションに対して適応型再ラベル付けを実行して効率的なサブ目標の監視を生成し、次に強化学習 (RL) と模倣学習 (IL) を使用して HRL エージェントを共同最適化する 2 段階のアプローチです。
)。
$(i)$ アプローチの準最適性を制限するために理論分析を実行し、 $(ii)$ 、RL と IL を使用して共同最適化のための一般化されたプラグアンドプレイ フレームワークを導き出します。
PEAR は、少数の専門家によるデモンストレーションを使用し、タスク構造に関して最小限の限定的な仮定を作成します。
さらに、一般的なモデルフリー RL アルゴリズムと簡単に統合して、実用的な HRL アルゴリズムを生成できます。
私たちは困難なロボット環境で実験を行い、PEAR が長期的な意思決定を必要とするタスクを解決できることを示します。
我々は、PEAR が以前の階層的アプローチおよび非階層的アプローチに比べてパフォーマンスとサンプル効率が向上していることを経験的に示しています。
また、複雑なタスクに関する現実世界のロボット実験も実施し、PEAR が常にベースラインを上回るパフォーマンスを示すことを実証します。

要約(オリジナル)

Hierarchical reinforcement learning (HRL) has the potential to solve complex long horizon tasks using temporal abstraction and increased exploration. However, hierarchical agents are difficult to train due to inherent non-stationarity. We present primitive enabled adaptive relabeling (PEAR), a two-phase approach where we first perform adaptive relabeling on a few expert demonstrations to generate efficient subgoal supervision, and then jointly optimize HRL agents by employing reinforcement learning (RL) and imitation learning (IL). We perform theoretical analysis to $(i)$ bound the sub-optimality of our approach, and $(ii)$ derive a generalized plug-and-play framework for joint optimization using RL and IL. PEAR uses a handful of expert demonstrations and makes minimal limiting assumptions on the task structure. Additionally, it can be easily integrated with typical model free RL algorithms to produce a practical HRL algorithm. We perform experiments on challenging robotic environments and show that PEAR is able to solve tasks that require long term decision making. We empirically show that PEAR exhibits improved performance and sample efficiency over previous hierarchical and non-hierarchical approaches. We also perform real world robotic experiments on complex tasks and demonstrate that PEAR consistently outperforms the baselines.

arxiv情報

著者 Utsav Singh,Vinay P Namboodiri
発行日 2023-09-20 14:04:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク