Grasp Diffusion Network: Learning Grasp Generators from Partial Point Clouds with Diffusion Models in SO(3)xR3

要約

多くのロボット操作タスクでは、単視点カメラから物体を適切に把握することが重要です。
この問題を解決するアプローチは、シミュレーションを利用してオブジェクトのペアの大規模なデータセットを作成し、ポーズを把握し、展開中に迅速にプロンプ​​トを表示できる条件付き生成モデルを学習することです。
ただし、オブジェクトを把握する方法はいくつかあるため、把握ポーズ データは高度にマルチモーダルです。
したがって、この研究では、オブジェクトの部分的な点群が与えられた場合に候補の把握ポーズをサンプリングするために、拡散モデルを使用して把握生成モデルを学習します。
私たちの方法の新しい側面は、回転の多様体空間での拡散を考慮し、推論中の把握成功率を向上させる衝突回避コストのガイダンスを提案することです。
把握サンプリングを加速するために、普及文献からの最新の手法を使用して推論時間を短縮します。
シミュレーションと実際の実験で、私たちのアプローチが生の深度画像から $90\%$ の成功率で複数のオブジェクトを把握し、いくつかのベースラインに対してベンチマークできることを示しました。

要約(オリジナル)

Grasping objects successfully from a single-view camera is crucial in many robot manipulation tasks. An approach to solve this problem is to leverage simulation to create large datasets of pairs of objects and grasp poses, and then learn a conditional generative model that can be prompted quickly during deployment. However, the grasp pose data is highly multimodal since there are several ways to grasp an object. Hence, in this work, we learn a grasp generative model with diffusion models to sample candidate grasp poses given a partial point cloud of an object. A novel aspect of our method is to consider diffusion in the manifold space of rotations and to propose a collision-avoidance cost guidance to improve the grasp success rate during inference. To accelerate grasp sampling we use recent techniques from the diffusion literature to achieve faster inference times. We show in simulation and real-world experiments that our approach can grasp several objects from raw depth images with $90\%$ success rate and benchmark it against several baselines.

arxiv情報

著者 Joao Carvalho,An T. Le,Philipp Jahr,Qiao Sun,Julen Urain,Dorothea Koert,Jan Peters
発行日 2024-12-11 14:17:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク