CRISP: Curriculum Inducing Primitive Informed Subgoal Prediction for Hierarchical Reinforcement Learning

要約

階層強化学習 (HRL) は、時間的抽象化を使用して複雑な長期問題を解決する有望なアプローチです。
ただし、下位レベルのプリミティブが非定常である場合に上位レベルのポリシーを訓練するのは困難であるため、ポリシーの階層を同時に学習することは不安定です。
この論文では、強化学習と模倣学習を使用して下位レベルのプリミティブを進化させるための達成可能なサブ目標のカリキュラムを効果的に生成する新しい HRL アルゴリズムである CRISP を紹介します。
CRISP は、低レベルのプリミティブを使用して、新しいプリミティブ インフォームド パーシング (PIP) アプローチを使用して、少数の専門家のデモンストレーションに対してデータの再ラベル付けを定期的に実行し、それによって非定常性を軽減します。
私たちのアプローチは少数の専門家のデモンストレーションへのアクセスのみを前提としているため、ほとんどのロボット制御タスクに適しています。
複雑なロボット迷路ナビゲーションおよびロボット操作タスクに関する実験評価では、階層型カリキュラム学習を導入するとサンプル効率が大幅に向上し、時間的に延長されたタスクを解決するための効率的な目標条件付きポリシーが得られることが実証されています。
さらに、複雑な操作タスクについて現実世界のロボット実験を実行し、CRISP が現実世界のシナリオで印象的な一般化を実証することを実証します。

要約(オリジナル)

Hierarchical reinforcement learning (HRL) is a promising approach that uses temporal abstraction to solve complex long horizon problems. However, simultaneously learning a hierarchy of policies is unstable as it is challenging to train higher-level policy when the lower-level primitive is non-stationary. In this paper, we present CRISP, a novel HRL algorithm that effectively generates a curriculum of achievable subgoals for evolving lower-level primitives using reinforcement learning and imitation learning. CRISP uses the lower level primitive to periodically perform data relabeling on a handful of expert demonstrations, using a novel primitive informed parsing (PIP) approach, thereby mitigating non-stationarity. Since our approach only assumes access to a handful of expert demonstrations, it is suitable for most robotic control tasks. Experimental evaluations on complex robotic maze navigation and robotic manipulation tasks demonstrate that inducing hierarchical curriculum learning significantly improves sample efficiency, and results in efficient goal conditioned policies for solving temporally extended tasks. Additionally, we perform real world robotic experiments on complex manipulation tasks and demonstrate that CRISP demonstrates impressive generalization in real world scenarios.

arxiv情報

著者 Utsav Singh,Vinay P. Namboodiri
発行日 2024-09-24 17:23:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク