Grasp Anything: Combining Teacher-Augmented Policy Gradient Learning with Instance Segmentation to Grasp Arbitrary Objects

要約

人間の器用さに似た、散らかった状態からインタラクティブに把握することは、ロボット学習において最も長年続いている問題の 1 つです。
課題は、視覚認識の複雑さ、正確な運動能力の要求、およびこれら 2 つの間の複雑な相互作用から生じます。
この研究では、強化学習とポリシー蒸留を相乗させる新しい 2 段階の学習フレームワークである教師拡張ポリシー勾配 (TAPG) を紹介します。
オブジェクトの姿勢情報に基づいて運動制御を習得する教師ポリシーをトレーニングした後、TAPG は、オブジェクトのセグメンテーションに基づいて、ガイド付きでありながら適応的な感覚運動ポリシーの学習を促進します。
オブジェクトのセグメンテーションを迅速に行うためのセグメント エニシング モデルを使用して、シミュレーションから実際のロボットにゼロショットで移行します。
私たちの訓練されたポリシーは、人間が理解できるプロンプトに基づいて、シミュレーション内の乱雑なシナリオと現実世界からさまざまなオブジェクトを適切に把握します。
さらに、新規オブジェクトへの堅牢なゼロショット転送を示します。
実験のビデオは \url{https://maltemosbach.github.io/grasp_anything} でご覧いただけます。

要約(オリジナル)

Interactive grasping from clutter, akin to human dexterity, is one of the longest-standing problems in robot learning. Challenges stem from the intricacies of visual perception, the demand for precise motor skills, and the complex interplay between the two. In this work, we present Teacher-Augmented Policy Gradient (TAPG), a novel two-stage learning framework that synergizes reinforcement learning and policy distillation. After training a teacher policy to master the motor control based on object pose information, TAPG facilitates guided, yet adaptive, learning of a sensorimotor policy, based on object segmentation. We zero-shot transfer from simulation to a real robot by using Segment Anything Model for promptable object segmentation. Our trained policies adeptly grasp a wide variety of objects from cluttered scenarios in simulation and the real world based on human-understandable prompts. Furthermore, we show robust zero-shot transfer to novel objects. Videos of our experiments are available at \url{https://maltemosbach.github.io/grasp_anything}.

arxiv情報

著者 Malte Mosbach,Sven Behnke
発行日 2024-03-15 10:48:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク