Hindsight States: Blending Sim and Real Task Elements for Efficient Reinforcement Learning

要約

強化学習は、少ない労力で大量のデータを生成できる場合、複雑なタスクを解決する上で大きな可能性を示しています。
ロボット工学では、トレーニング データを生成する 1 つのアプローチは、第一原理から得られたダイナミクス モデルに基づくシミュレーションに基づいています。
ただし、たとえば複雑なソフト ロボットを含むタスクの場合、そのようなモデルを考案することはかなり困難です。
強化学習を使用して、ますます複雑化するシナリオで効果的にトレーニングできるため、ソフト ロボットなどの複雑なシステムを活用できます。
ここでは、ダイナミクスの複雑さの不均衡を利用して、よりサンプル効率的に学習します。
(i) タスクを個別のコンポーネントに抽象化し、(ii) 単純なダイナミクス部分をシミュレーションにオフロードし、(iii) これらの仮想部分を乗算して、後知恵でより多くのデータを生成します。
私たちの新しい方法である Hindsight States (HiS) は、このデータを使用して、トレーニングに最も役立つ遷移を選択します。
これは、任意のポリシー外アルゴリズムで使用できます。
いくつかの挑戦的なシミュレートされたタスクでこの方法を検証し、単独でも、既存の後知恵アルゴリズムである Hindsight Experience Replay (HER) と組み合わせた場合でも、学習が改善されることを実証します。
最後に、物理システムで HiS を評価し、筋肉ロボットを使用した複雑な卓球タスクのパフォーマンスを向上させることを示します。
実験のビデオとコードは webdav.tuebingen.mpg.de/his/ にあります。

要約(オリジナル)

Reinforcement learning has shown great potential in solving complex tasks when large amounts of data can be generated with little effort. In robotics, one approach to generate training data builds on simulations based on dynamics models derived from first principles. However, for tasks that, for instance, involve complex soft robots, devising such models is substantially more challenging. Being able to train effectively in increasingly complicated scenarios with reinforcement learning enables to take advantage of complex systems such as soft robots. Here, we leverage the imbalance in complexity of the dynamics to learn more sample-efficiently. We (i) abstract the task into distinct components, (ii) off-load the simple dynamics parts into the simulation, and (iii) multiply these virtual parts to generate more data in hindsight. Our new method, Hindsight States (HiS), uses this data and selects the most useful transitions for training. It can be used with an arbitrary off-policy algorithm. We validate our method on several challenging simulated tasks and demonstrate that it improves learning both alone and when combined with an existing hindsight algorithm, Hindsight Experience Replay (HER). Finally, we evaluate HiS on a physical system and show that it boosts performance on a complex table tennis task with a muscular robot. Videos and code of the experiments can be found on webdav.tuebingen.mpg.de/his/.

arxiv情報

著者 Simon Guist,Jan Schneider,Alexander Dittrich,Vincent Berenz,Bernhard Schölkopf,Dieter Büchler
発行日 2023-03-09 15:14:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, cs.RO パーマリンク