Reverse Forward Curriculum Learning for Extreme Sample and Demonstration Efficiency in Reinforcement Learning

要約

強化学習(RL)は、環境との相互作用を通じて方針を学習する有望なフレームワークを提示するが、疎な報酬から複雑なタスクを解くためには、しばしば実行不可能な量の相互作用データを必要とする。一つの方向性として、RLを望ましいタスクを示すオフラインデータで補強することが挙げられるが、過去の研究では、特にロボット工学のような領域では、入手が困難な多くの高品質な実証データを必要とすることが多い。我々のアプローチは、リバースカリキュラムとフォワードカリキュラムから構成されている。過去の研究と比較して我々のアプローチがユニークなのは、状態リセットによって生成されるデモごとのリバースカリキュラムによって、複数のデモを効率的に活用できることである。我々のリバースカリキュラムの結果は、狭い初期状態分布でうまく機能し、困難な探索問題を克服するのに役立つ初期ポリシーである。その後、フォワードカリキュラムを用いて、初期ポリシーの学習を加速し、タスクの完全な初期状態分布で良好な性能を発揮できるようにし、デモとサンプルの効率を改善する。我々の手法であるRFCLにおいて、リバースカリキュラムとフォワードカリキュラムを組み合わせることで、様々な最先端のデモンストレーションからの学習ベースラインと比較して、デモンストレーションとサンプルの効率が大幅に改善され、高精度と制御を必要とする以前は解決不可能であったタスクをも解決できることを示す。

要約(オリジナル)

Reinforcement learning (RL) presents a promising framework to learn policies through environment interaction, but often requires an infeasible amount of interaction data to solve complex tasks from sparse rewards. One direction includes augmenting RL with offline data demonstrating desired tasks, but past work often require a lot of high-quality demonstration data that is difficult to obtain, especially for domains such as robotics. Our approach consists of a reverse curriculum followed by a forward curriculum. Unique to our approach compared to past work is the ability to efficiently leverage more than one demonstration via a per-demonstration reverse curriculum generated via state resets. The result of our reverse curriculum is an initial policy that performs well on a narrow initial state distribution and helps overcome difficult exploration problems. A forward curriculum is then used to accelerate the training of the initial policy to perform well on the full initial state distribution of the task and improve demonstration and sample efficiency. We show how the combination of a reverse curriculum and forward curriculum in our method, RFCL, enables significant improvements in demonstration and sample efficiency compared against various state-of-the-art learning-from-demonstration baselines, even solving previously unsolvable tasks that require high precision and control.

arxiv情報

著者 Stone Tao,Arth Shukla,Tse-kai Chan,Hao Su
発行日 2024-05-06 11:33:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク