SuperQ-GRASP: Superquadrics-based Grasp Pose Estimation on Larger Objects for Mobile-Manipulation

要約

把握計画と推定は、ロボット工学における長年の研究課題であり、物体上の把握可能な姿勢を見つけるための 2 つの主なアプローチがあります。1) 物体の 3D モデルとグリッパーに依存して有効な把握姿勢を推定する幾何学的なアプローチ、2) データ
生のセンサー観察から把握ポーズを特定するようにトレーニングされたモデルを使用した、学習ベースのアプローチです。
後者は、トレーニング段階で包括的な幾何学的範囲を想定しています。
ただし、データ駆動型のアプローチは通常、卓上のシナリオに偏っており、より大きなオブジェクト (椅子など) を使用した配布外のシナリオに一般化するのは困難です。
さらに、これらの大きなオブジェクトの 1 つのビューからの生のセンサー データ (例: RGB-D データ) は不完全であることが多く、追加の観察が必要になります。
この論文では、オブジェクト モデリング (NeRF など) の進歩を活用した幾何学的なアプローチを採用し、ターゲット オブジェクトの周囲のビューから RGB 画像を取得することで暗黙的なモデルを構築します。
このモデルにより、明示的なメッシュ モデルの抽出が可能になると同時に、物体検出や姿勢推定などの認識タスクに役立つ新しい視点から視覚的な外観をキャプチャすることもできます。
さらに、NeRF で再構成された 3D メッシュを超 2 次関数 (SQ)、つまりパラメトリックな幾何学プリミティブに分解します。各プリミティブは、事前に計算された一連の把握ポーズにマッピングされ、これらのプリミティブに基づいてターゲット オブジェクト上で把握を構成できるようになります。
私たちが提案するパイプラインは、a) モデリング ステップによるオブジェクトのノイズの多い深さと不完全なビュー、b) あらゆるサイズのオブジェクトへの一般化という問題を克服します。
より定性的な結果については、補足ビデオと Web ページ https://bit.ly/3ZrOanU を参照してください。

要約(オリジナル)

Grasp planning and estimation have been a longstanding research problem in robotics, with two main approaches to find graspable poses on the objects: 1) geometric approach, which relies on 3D models of objects and the gripper to estimate valid grasp poses, and 2) data-driven, learning-based approach, with models trained to identify grasp poses from raw sensor observations. The latter assumes comprehensive geometric coverage during the training phase. However, the data-driven approach is typically biased toward tabletop scenarios and struggle to generalize to out-of-distribution scenarios with larger objects (e.g. chair). Additionally, raw sensor data (e.g. RGB-D data) from a single view of these larger objects is often incomplete and necessitates additional observations. In this paper, we take a geometric approach, leveraging advancements in object modeling (e.g. NeRF) to build an implicit model by taking RGB images from views around the target object. This model enables the extraction of explicit mesh model while also capturing the visual appearance from novel viewpoints that is useful for perception tasks like object detection and pose estimation. We further decompose the NeRF-reconstructed 3D mesh into superquadrics (SQs) — parametric geometric primitives, each mapped to a set of precomputed grasp poses, allowing grasp composition on the target object based on these primitives. Our proposed pipeline overcomes the problems: a) noisy depth and incomplete view of the object, with a modeling step, and b) generalization to objects of any size. For more qualitative results, refer to the supplementary video and webpage https://bit.ly/3ZrOanU

arxiv情報

著者 Xun Tu,Karthik Desingh
発行日 2024-11-07 03:00:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.9, I.3.5 パーマリンク