Dynamic Grasping with a Learned Meta-Controller

要約

移動する物体を把握することは、物体姿勢予測器、腕動作プランナーなどの複数のサブモジュールを必要とする困難なタスクです。各サブモジュールは、独自のメタパラメータのセットの下で動作します。
たとえば、姿勢予測機能がどこまで将来を見据えるべきか (つまり、先読み時間)、およびモーション プランナーがモーションの計画に費やすことができる最大時間 (つまり、時間予算) などです。
これまでの多くの作品では、これらのパラメータに固定値が割り当てられていました。
ただし、動的把握の 1 つのエピソード内のさまざまな瞬間では、最適な値は現在のシーンに応じて異なるはずです。
この研究では、先読み時間と時間バジェットを動的に制御するメタコントローラーを備えた動的把握パイプラインを提案します。
私たちは、スパース報酬を用いた強化学習を通じてメタコントローラーを学習します。
私たちの実験では、最も強力なベースラインと比較して、メタコントローラーが把握成功率を向上させ (最も乱雑な環境で最大 28%)、把握時間を短縮することが示されました。
私たちのメタコントローラーは、到達可能なワークスペースについて推論し、到達可能な領域内で予測された姿勢を維持することを学習します。
さらに、少ないながらも十分な時間予算をモーション プランナーに割り当てます。
私たちの方法は、さまざまなオブジェクト、軌道、障害物を処理できます。
3 ~ 6 個のランダムな直方体障害物のみでトレーニングされているにもかかわらず、私たちのメタコントローラーは 7 ~ 9 個の障害物や、目に見えない障害物の形状を備えたより現実的な領域外の家庭環境によく一般化します。

要約(オリジナル)

Grasping moving objects is a challenging task that requires multiple submodules such as object pose predictor, arm motion planner, etc. Each submodule operates under its own set of meta-parameters. For example, how far the pose predictor should look into the future (i.e., look-ahead time) and the maximum amount of time the motion planner can spend planning a motion (i.e., time budget). Many previous works assign fixed values to these parameters; however, at different moments within a single episode of dynamic grasping, the optimal values should vary depending on the current scene. In this work, we propose a dynamic grasping pipeline with a meta-controller that controls the look-ahead time and time budget dynamically. We learn the meta-controller through reinforcement learning with a sparse reward. Our experiments show the meta-controller improves the grasping success rate (up to 28% in the most cluttered environment) and reduces grasping time, compared to the strongest baseline. Our meta-controller learns to reason about the reachable workspace and maintain the predicted pose within the reachable region. In addition, it assigns a small but sufficient time budget for the motion planner. Our method can handle different objects, trajectories, and obstacles. Despite being trained only with 3-6 random cuboidal obstacles, our meta-controller generalizes well to 7-9 obstacles and more realistic out-of-domain household setups with unseen obstacle shapes.

arxiv情報

著者 Yinsen Jia,Jingxi Xu,Dinesh Jayaraman,Shuran Song
発行日 2023-10-22 22:44:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク