要約
タイトル:Divide&Conquer Imitation Learning(分割&征服な真似学習)
要約:
– 多くのロボティクスタスクは、リワードが少なく、ホライズン(時間的範囲)も長くなるため、学習アルゴリズムが苦戦する。
– そこで、専門家の手法を真似る「Imitation Learning(IL)」は学習プロセスを進めるのに有効であるが、ILには多くの専門家の実演データが必要となる。
– しかしながら、極端に低い専門家のデータ環境で、1つの専門家の実演だけで学習できるILのアルゴリズムはほとんどない。
– この論文では、専門家の軌跡の状態から、複雑なロボティクスタスクを真似るために設計された新しいアルゴリズムを紹介している。
– 私たちの方法は、順次帰納バイアスに基づいて複雑なタスクを小さいスキルに分割し、目標条件付きポリシーでスキルごとに解決し、全体のタスクを解決するためにスキルをリンクしている。
– 私たちは、方法が非ホロノミックナビゲーションタスクを真似し、非常に高いサンプル効率で複雑なシミュレーションロボティクス操作タスクのスケーリングにも対応できることを示しています。
要約(オリジナル)
When cast into the Deep Reinforcement Learning framework, many robotics tasks require solving a long horizon and sparse reward problem, where learning algorithms struggle. In such context, Imitation Learning (IL) can be a powerful approach to bootstrap the learning process. However, most IL methods require several expert demonstrations which can be prohibitively difficult to acquire. Only a handful of IL algorithms have shown efficiency in the context of an extreme low expert data regime where a single expert demonstration is available. In this paper, we present a novel algorithm designed to imitate complex robotic tasks from the states of an expert trajectory. Based on a sequential inductive bias, our method divides the complex task into smaller skills. The skills are learned into a goal-conditioned policy that is able to solve each skill individually and chain skills to solve the entire task. We show that our method imitates a non-holonomic navigation task and scales to a complex simulated robotic manipulation task with very high sample efficiency.
arxiv情報
著者 | Alexandre Chenu,Nicolas Perrin-Gilbert,Olivier Sigaud |
発行日 | 2023-04-13 11:31:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI