Learning a Meta-Controller for Dynamic Grasping

要約

動くオブジェクトをつかむことは、オブジェクト ポーズ予測、アーム モーション プランナーなどの複数のサブモジュールを組み合わせた困難なタスクです。各サブモジュールは、独自のメタパラメーター セットの下で動作します。
たとえば、姿勢予測子が将来をどの程度見なければならないか (つまり、先読み時間) や、モーション プランナーがモーションの計画に費やすことができる最大時間 (つまり、時間予算) などです。
以前の多くの研究では、ヒューリスティックまたはグリッド検索によってこれらのパラメーターに固定値を割り当てていました。
ただし、動的把握の 1 つのエピソード内のさまざまな時点で、最適な値は現在のシーンによって異なるはずです。
この作業では、強化学習を通じてメタコントローラーを学習し、先読み時間と時間予算を動的に制御します。
私たちの広範な実験では、最強のベースラインと比較して、メタコントローラーが把握の成功率を向上させ (最も雑然とした環境で最大 12%)、把握時間を短縮することが示されています。
私たちのメタコントローラーは、到達可能なワークスペースについて推論し、到達可能な領域内で予測されたポーズを維持することを学習します。
さらに、モーション プランナーに小さいながらも十分な時間予算を割り当てます。
私たちの方法は、さまざまなターゲット オブジェクト、軌道、および障害物を処理できます。
ランダムに生成された 3 ~ 6 個の立方体の障害物のみでトレーニングされているにもかかわらず、当社のメタコントローラーは、7 ~ 9 個の障害物と、目に見えない障害物の形状を備えたより現実的なドメイン外の家庭用セットアップにうまく一般化します。
動画は https://youtu.be/CwHq77wFQqI でご覧いただけます。

要約(オリジナル)

Grasping moving objects is a challenging task that combines multiple submodules such as object pose predictor, arm motion planner, etc. Each submodule operates under its own set of meta-parameters. For example, how far the pose predictor should look into the future (i.e., look-ahead time) and the maximum amount of time the motion planner can spend planning a motion (i.e., time budget). Many previous works assign fixed values to these parameters either heuristically or through grid search; however, at different moments within a single episode of dynamic grasping, the optimal values should vary depending on the current scene. In this work, we learn a meta-controller through reinforcement learning to control the look-ahead time and time budget dynamically. Our extensive experiments show that the meta-controller improves the grasping success rate (up to 12% in the most cluttered environment) and reduces grasping time, compared to the strongest baseline. Our meta-controller learns to reason about the reachable workspace and maintain the predicted pose within the reachable region. In addition, it assigns a small but sufficient time budget for the motion planner. Our method can handle different target objects, trajectories, and obstacles. Despite being trained only with 3-6 randomly generated cuboidal obstacles, our meta-controller generalizes well to 7-9 obstacles and more realistic out-of-domain household setups with unseen obstacle shapes. Video is available at https://youtu.be/CwHq77wFQqI.

arxiv情報

著者 Yinsen Jia,Jingxi Xu,Dinesh Jayaraman,Shuran Song
発行日 2023-02-16 18:14:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク