要約
タイトル:CRISP:階層的強化学習のための原始情報付きサブゴール予測を誘発するカリキュラム
要約:本論文では、複雑な長期間問題を解決するために、時間的抽象化を利用する有望なアプローチである階層的強化学習について説明されています。しかし、同時に複数のポリシーを階層的に学習することは、下位レベルの原始的なポリシーが非定常である場合に高次元のポリシーを訓練することが難しいため不安定になります。そこで、本研究では、強化学習と模倣学習を使用して進化する下位レベルプリミティブのための実現可能なサブゴールのカリキュラムを生成することにより、新しい階層的アルゴリズムを提案しています。下位レベルのプリミティブは、primitive informed parsingアプローチを使用して、極少数の専門家デモンストレーションに対してデータリベリングを定期的に実行します。本研究では、我々の方法の部分最適性を束縛するための式を提供し、階層的強化学習の実用的なアルゴリズムを開発します。専門家デモンストレーションを極少数に使用しているため、本アプローチはほとんどのロボット制御タスクに適しています。複雑な迷路ナビゲーションやロボット操作環境での実験的評価により、階層的カリキュラム学習の導入によりサンプルの効率性が大幅に改善され、時間的に拡張されたタスクを解決するための効率的な目的条件付きポリシーが得られることが示されました。
– 階層的強化学習は、時間的抽象化を利用することで、複雑な問題を解決するための有望なアプローチである。
– 複数のポリシーを同時に学習することは不安定であるため、下位レベルのポリシーが非定常である場合に高次元のポリシーを訓練することが困難となる。
– 本研究では、強化学習と模倣学習を使用して下位レベルプリミティブのための実現可能なサブゴールのカリキュラムを生成することにより、階層的アルゴリズムを提案している。
– 下位レベルのプリミティブは、primitive informed parsingアプローチを使用して、極少数の専門家デモンストレーションに対してデータリベリングを定期的に実行する。
– 専門家デモンストレーションを極少数に使用しているため、本アプローチはほとんどのロボット制御タスクに適している。
– 複雑な迷路ナビゲーションやロボット操作環境での実験的評価により、階層的カリキュラム学習の導入によりサンプルの効率性が大幅に改善され、時間的に拡張されたタスクを解決するための効率的な目的条件付きポリシーが得られることが示された。
要約(オリジナル)
Hierarchical reinforcement learning is a promising approach that uses temporal abstraction to solve complex long horizon problems. However, simultaneously learning a hierarchy of policies is unstable as it is challenging to train higher-level policy when the lower-level primitive is non-stationary. In this paper, we propose a novel hierarchical algorithm by generating a curriculum of achievable subgoals for evolving lower-level primitives using reinforcement learning and imitation learning. The lower level primitive periodically performs data relabeling on a handful of expert demonstrations using our primitive informed parsing approach. We provide expressions to bound the sub-optimality of our method and develop a practical algorithm for hierarchical reinforcement learning. Since our approach uses a handful of expert demonstrations, it is suitable for most robotic control tasks. Experimental evaluation on complex maze navigation and robotic manipulation environments show that inducing hierarchical curriculum learning significantly improves sample efficiency, and results in efficient goal conditioned policies for solving temporally extended tasks.
arxiv情報
著者 | Utsav Singh,Vinay P Namboodiri |
発行日 | 2023-04-07 08:22:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI