Sample-efficient Reinforcement Learning in Robotic Table Tennis

要約

強化学習(RL)は、様々なコンピュータゲームやシミュレーションにおいて、最近素晴らしい成功を収めている。これらの成功のほとんどは、エージェントが学習できるエピソードが大量にあることに基づいている。しかし、典型的なロボットアプリケーションでは、実現可能な試行回数は非常に限られている。本論文では、卓球ロボットの例に適用したサンプル効率の良いRLアルゴリズムを紹介する。卓球ではすべてのストロークが異なり、配置、速度、スピンも様々である。したがって、高次元の連続状態空間に応じて正確なリターンを見つけなければならない。少ない試行回数での学習を可能にするため、この方法はロボットシステムに組み込まれている。このようにして、ワンステップ環境を使用することができる。状態空間は打球時のボール(位置、速度、スピン)に依存し、アクションは打球時のラケット状態(向き、速度)である。アクタークリティックに基づく決定論的政策勾配アルゴリズムが、加速学習のために開発された。我々のアプローチは、多くの困難なシナリオにおいて、シミュレーションと実際のロボットの両方で競争力のある性能を示した。事前学習無しで、200$エピソード以下の学習で正確な結果が得られた。我々の実験を紹介するビデオはhttps://youtu.be/uRAtdoL6Wpw。

要約(オリジナル)

Reinforcement learning (RL) has achieved some impressive recent successes in various computer games and simulations. Most of these successes are based on having large numbers of episodes from which the agent can learn. In typical robotic applications, however, the number of feasible attempts is very limited. In this paper we present a sample-efficient RL algorithm applied to the example of a table tennis robot. In table tennis every stroke is different, with varying placement, speed and spin. An accurate return therefore has to be found depending on a high-dimensional continuous state space. To make learning in few trials possible the method is embedded into our robot system. In this way we can use a one-step environment. The state space depends on the ball at hitting time (position, velocity, spin) and the action is the racket state (orientation, velocity) at hitting. An actor-critic based deterministic policy gradient algorithm was developed for accelerated learning. Our approach performs competitively both in a simulation and on the real robot in a number of challenging scenarios. Accurate results are obtained without pre-training in under $200$ episodes of training. The video presenting our experiments is available at https://youtu.be/uRAtdoL6Wpw.

arxiv情報

著者 Jonas Tebbe,Lukas Krauch,Yapeng Gao,Andreas Zell
発行日 2024-01-04 10:25:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO パーマリンク