CRISP: Curriculum inducing Primitive Informed Subgoal Prediction

要約

階層型強化学習は、時間的抽象化を使用して複雑な長期問題を解決する有望なアプローチです。
ただし、下位レベルのプリミティブが非定常である場合に上位レベルのポリシーを訓練するのは困難であるため、ポリシーの階層を同時に学習することは不安定です。
この論文では、強化学習と模倣学習を使用して下位レベルのプリミティブを進化させるための達成可能なサブ目標のカリキュラムを生成するための、新しい階層アルゴリズム CRISP を提案します。
下位レベルのプリミティブは、非定常性を処理するためのプリミティブ情報に基づいた解析アプローチを使用して、少数の専門家のデモンストレーションに対してデータの再ラベル付けを定期的に実行します。
私たちのアプローチは少数の専門家によるデモンストレーションを使用するため、ほとんどのロボット制御タスクに適しています。
複雑なロボット迷路ナビゲーションおよびロボット操作環境に関する実験評価では、階層型カリキュラム学習を導入するとサンプル効率が大幅に向上し、時間的に延長されたタスクを解決するための効率的な目標条件付きポリシーが得られることが示されています。
私たちは、複雑な操作タスクに関する現実世界のロボット実験を実行し、CRISP が常にベースラインを上回るパフォーマンスを示します。

要約(オリジナル)

Hierarchical reinforcement learning is a promising approach that uses temporal abstraction to solve complex long horizon problems. However, simultaneously learning a hierarchy of policies is unstable as it is challenging to train higher-level policy when the lower-level primitive is non-stationary. In this paper, we propose a novel hierarchical algorithm CRISP to generate a curriculum of achievable subgoals for evolving lower-level primitives using reinforcement learning and imitation learning. The lower level primitive periodically performs data relabeling on a handful of expert demonstrations using our primitive informed parsing approach to handle non-stationarity. Since our approach uses a handful of expert demonstrations, it is suitable for most robotic control tasks. Experimental evaluations on complex robotic maze navigation and robotic manipulation environments show that inducing hierarchical curriculum learning significantly improves sample efficiency, and results in efficient goal conditioned policies for solving temporally extended tasks. We perform real world robotic experiments on complex manipulation tasks and demonstrate that CRISP consistently outperforms the baselines.

arxiv情報

著者 Utsav Singh,Vinay P Namboodiri
発行日 2023-09-20 13:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク