Dynamic Grasping with a Learned Meta-Controller


たとえば、姿勢予測機能がどこまで将来を見据えるべきか (つまり、先読み時間)、およびモーション プランナーがモーションの計画に費やすことができる最大時間 (つまり、時間予算) などです。
ただし、動的把握の 1 つのエピソード内のさまざまな瞬間では、最適な値は現在のシーンに応じて異なるはずです。
私たちの実験では、最も強力なベースラインと比較して、メタコントローラーが把握成功率を向上させ (最も乱雑な環境で最大 28%)、把握時間を短縮することが示されました。
さらに、少ないながらも十分な時間予算をモーション プランナーに割り当てます。
3 ~ 6 個のランダムな直方体障害物のみでトレーニングされているにもかかわらず、私たちのメタコントローラーは 7 ~ 9 個の障害物や、目に見えない障害物の形状を備えたより現実的な領域外の家庭環境によく一般化します。


Grasping moving objects is a challenging task that requires multiple submodules such as object pose predictor, arm motion planner, etc. Each submodule operates under its own set of meta-parameters. For example, how far the pose predictor should look into the future (i.e., look-ahead time) and the maximum amount of time the motion planner can spend planning a motion (i.e., time budget). Many previous works assign fixed values to these parameters; however, at different moments within a single episode of dynamic grasping, the optimal values should vary depending on the current scene. In this work, we propose a dynamic grasping pipeline with a meta-controller that controls the look-ahead time and time budget dynamically. We learn the meta-controller through reinforcement learning with a sparse reward. Our experiments show the meta-controller improves the grasping success rate (up to 28% in the most cluttered environment) and reduces grasping time, compared to the strongest baseline. Our meta-controller learns to reason about the reachable workspace and maintain the predicted pose within the reachable region. In addition, it assigns a small but sufficient time budget for the motion planner. Our method can handle different objects, trajectories, and obstacles. Despite being trained only with 3-6 random cuboidal obstacles, our meta-controller generalizes well to 7-9 obstacles and more realistic out-of-domain household setups with unseen obstacle shapes.


著者 Yinsen Jia,Jingxi Xu,Dinesh Jayaraman,Shuran Song
発行日 2023-10-22 22:44:52+00:00
