Data-Efficient Online Learning of Ball Placement in Robot Table Tennis

要約

卓球ロボットでピンポン球を返す際に、事前に定義したターゲットに当てるためのオンライン最適化アルゴリズムの実装を紹介します。
オンライン アルゴリズムは、ロボット アームがボールをインターセプトする方法を定義する、いわゆるインターセプト ポリシーを最適化します。
私たちの場合、これらは傍受時のロボット アームの状態 (位置と速度) で構成されます。
勾配情報は、インターセプト ポリシーからテーブル上のボールの着地点までのマッピングを介して最適化アルゴリズムに提供されます。マッピングは、ブラック ボックスおよびグレー ボックスのアプローチで近似されます。
私たちのアルゴリズムは、空気圧人工筋肉によって駆動される 4 自由度のロボット アームに適用されます。
その結果、ロボット アームは、約 2 ~ 5 回の反復後に、テーブル上の事前に定義されたターゲットにボールを戻すことができます。
ブラック ボックスとグレー ボックスの両方の勾配で迅速な収束を示すことで、アプローチの堅牢性を強調します。
さらに、ターゲットに近接するまでに必要な反復回数が少ないことも、サンプル効率を強調します。
デモビデオはこちらからご覧いただけます: https://youtu.be/VC3KJoCss0k。

要約(オリジナル)

We present an implementation of an online optimization algorithm for hitting a predefined target when returning ping-pong balls with a table tennis robot. The online algorithm optimizes over so-called interception policies, which define the manner in which the robot arm intercepts the ball. In our case, these are composed of the state of the robot arm (position and velocity) at interception time. Gradient information is provided to the optimization algorithm via the mapping from the interception policy to the landing point of the ball on the table, which is approximated with a black-box and a grey-box approach. Our algorithm is applied to a robotic arm with four degrees of freedom that is driven by pneumatic artificial muscles. As a result, the robot arm is able to return the ball onto any predefined target on the table after about 2-5 iterations. We highlight the robustness of our approach by showing rapid convergence with both the black-box and the grey-box gradients. In addition, the small number of iterations required to reach close proximity to the target also underlines the sample efficiency. A demonstration video can be found here: https://youtu.be/VC3KJoCss0k.

arxiv情報

著者 Philip Tobuschat,Hao Ma,Dieter Büchler,Bernhard Schölkopf,Michael Muehlebach
発行日 2023-08-28 13:24:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク