要約
タイトル:単一デモンストレーションからの強化学習におけるシーケンシャリティの活用
要約:
– Deep Reinforcement Learningはロボット制御の学習に成功しているが、エージェントが複雑なタスクを達成した後にのみ報酬を受け取る問題に適用するとアルゴリズムが苦戦する。
– この文脈において、デモンストレーションの利用は学習プロセスを大幅に加速することができるが、デモンストレーションを獲得するのには高いコストがかかる。
– 本論文では、シーケンシャルバイアスを活用して、単一のデモンストレーションを利用して複雑なロボットタスクの制御ポリシーを学習することを提案している。
– シーケンシャルな目標達成アプローチでは、連続する目標の間の互換性の問題が発生するため、次の目標の達成と互換性のある状態を確保する必要がある。
– この問題に対処するため、DCIL-IIという新しいアルゴリズムを提案している。
– 我々は、DCIL-IIが、ヒューマノイドの移動や立ち上がり、そしてシミュレートされたCassieロボットの高速走行など、難解なシミュレーションタスクを前例のないサンプル効率で解決できることを示した。
– シーケンシャリティの活用は、次世代の自律ロボットのために、最小限の仕様の下で複雑なロボットタスクを解決するための一歩である。
要約(オリジナル)
Deep Reinforcement Learning has been successfully applied to learn robotic control. However, the corresponding algorithms struggle when applied to problems where the agent is only rewarded after achieving a complex task. In this context, using demonstrations can significantly speed up the learning process, but demonstrations can be costly to acquire. In this paper, we propose to leverage a sequential bias to learn control policies for complex robotic tasks using a single demonstration. To do so, our method learns a goal-conditioned policy to control a system between successive low-dimensional goals. This sequential goal-reaching approach raises a problem of compatibility between successive goals: we need to ensure that the state resulting from reaching a goal is compatible with the achievement of the following goals. To tackle this problem, we present a new algorithm called DCIL-II. We show that DCIL-II can solve with unprecedented sample efficiency some challenging simulated tasks such as humanoid locomotion and stand-up as well as fast running with a simulated Cassie robot. Our method leveraging sequentiality is a step towards the resolution of complex robotic tasks under minimal specification effort, a key feature for the next generation of autonomous robots.
arxiv情報
著者 | Alexandre Chenu,Olivier Serris,Olivier Sigaud,Nicolas Perrin-Gilbert |
発行日 | 2023-04-17 09:18:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI