Data-Efficient Online Learning of Ball Placement in Robot Table Tennis


オンライン アルゴリズムは、ロボット アームがボールをインターセプトする方法を定義する、いわゆるインターセプト ポリシーを最適化します。
私たちの場合、これらは傍受時のロボット アームの状態 (位置と速度) で構成されます。
勾配情報は、インターセプト ポリシーからテーブル上のボールの着地点までのマッピングを介して最適化アルゴリズムに提供されます。マッピングは、ブラック ボックスおよびグレー ボックスのアプローチで近似されます。
私たちのアルゴリズムは、空気圧人工筋肉によって駆動される 4 自由度のロボット アームに適用されます。
その結果、ロボット アームは、約 2 ~ 5 回の反復後に、テーブル上の事前に定義されたターゲットにボールを戻すことができます。
ブラック ボックスとグレー ボックスの両方の勾配で迅速な収束を示すことで、アプローチの堅牢性を強調します。


We present an implementation of an online optimization algorithm for hitting a predefined target when returning ping-pong balls with a table tennis robot. The online algorithm optimizes over so-called interception policies, which define the manner in which the robot arm intercepts the ball. In our case, these are composed of the state of the robot arm (position and velocity) at interception time. Gradient information is provided to the optimization algorithm via the mapping from the interception policy to the landing point of the ball on the table, which is approximated with a black-box and a grey-box approach. Our algorithm is applied to a robotic arm with four degrees of freedom that is driven by pneumatic artificial muscles. As a result, the robot arm is able to return the ball onto any predefined target on the table after about 2-5 iterations. We highlight the robustness of our approach by showing rapid convergence with both the black-box and the grey-box gradients. In addition, the small number of iterations required to reach close proximity to the target also underlines the sample efficiency. A demonstration video can be found here:


著者 Philip Tobuschat,Hao Ma,Dieter Büchler,Bernhard Schölkopf,Michael Muehlebach
発行日 2023-08-28 13:24:58+00:00
arxivサイト arxiv_id(pdf)

